神经 网 络 的 研究 起 源 于 19 世 纪 后 期 和 20 世 纪 早 期 ， 它 横 跨 工程 学 、 物 理学 、 神 经 生理 学 、 心 理学 、 计 算 机 和 数学 等 多 个 学 
科 。 早 期 的 神经 网 络 学 者 Hermann Von Helmholtz 等 强调 学 习 理 论 、 视 党 等 ， 并 没有 给 出 神经 运算 的 特殊 数学 模型 。 


Warren McCulloch 在 20 世 纪 40 年 代 给 出 了 现代 视角 的 神经 网 络 ， 并 有 了 神经 网 络 的 第 一 个 实际 应 用 。 在 50 年 代 ， 开 始 有 
了 感知 机 学 习 规则 。 但 是 人 们 之 后 用 现 ， 它 仅 能 用 于 有 限 的 应 用 问题 。60 年 代 未 ， 一 些 学 者 开始 认为 神经 网 络 的 进一步 研究 是 
没有 前 途 的 。80 年 代 初 ， 人 们 又 重新 对 神经 网 络 产生 了 兴趣 。 进 入 21 世 纪 后 ， 由 于 计算 机 处 理 能 力 的 增强 ， 特 别 是 GPU 的 计算 
能 力 增强 ， 神 经 网 络 在 图 像 处 理 和 计算 机 视 党 等 领域 取得 了 极 大 的 成 功 。 谷 歌 (Google) 公司 的 AlphaGo 应 用 深度 神经 网 络 的 
学 习 技 术 ， 战 胜 了 当前 世界 上 最 优秀 的 围棋 选手 。 近 两 年 ， 学 术 界 和 工业 界 掀起 了 研究 深度 学 习 、 深 度 神经 网 络 的 极 大 热潮 。 


独 经 网 络 跨越 多 个 领域 ， 不 同 领域 的 作者 有 时 候 采 用 不 同 的 术语 。 因 此 ， 神 经 网 络 的 基本 概念 虽然 不 是 太 复 民 ， 但 是 相关 的 
书籍 阅读 起 来 比较 史 力 ， 读 者 较 难 把 握 其 中 的 概念 。 如 果 能 够 结合 具体 的 实例 并 能 够 进行 实际 的 操作 ， 将 会 大 大 帮助 读者 掌握 神 
经 网 络 的 基本 知识 和 应 用 技能 。 本 书 束 满足 了 这 些 条 件 。 


本 书 从 神经 网 络 的 基本 概念 出 友 ， 详 细 介 绍 了 神经 网 络 的 学 习 过 程 、 前 向 神经 网 络 、 后 向 反馈 神经 网 络 、 循 环 神经 网 络 、 卷 
积 神经 网 络 、 多 层 神 经 网 络 、 感 知 神经 网 络 等 。 在 介绍 神经 网 络 基 本 知识 的 同时 ， 应 用 当前 最 为 广泛 使 用 的 数据 分 析 软 件 R， 演 
示 了 相关 的 神经 网 络 概念 和 模型 的 应 用 。 同 时 ， 也 介绍 了 当前 最 流行 的 神经 网 络 模型 的 实现 软件 包 ， 例 如 TensorFlow、Keras 
等 ， 并 介绍 如 何 把 它们 集成 到 R 的 应 用 中 。 


读者 通过 自己 动手 ， 可 以 更 好 地 获得 神经 网 络 的 实际 运用 体验 ， 学 习 R 的 神经 网 络 建 模 方法 。 本 书 从 神经 网 络 的 基本 概念 
手 ， 案 例 丰 富 ， 浅 显 易 懂 ， 无 论 是 神经 网 络 的 初学 者 或 者 资深 用 尸 都 能 从 本 书 受 葵 。 同 时 ， 读 者 也 可 以 学 习 R 语 言 的 相关 知识 和 
操作 。 本 书 既 可 以 用 作 神 经 网 络 或 者 人 工 智能 等 课程 的 教材 ， 也 可 以 用 作 实 践 工作 的 应 用 手册 。 
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和 机 器 学 习 不 同 领域 的 各 种 问题 。 
本 书 解释 了 神经 网 络 的 优点 ， 提 供 了 高 级 主题 相 天 的 基础 知识 。 本 书 从 使 用 neuralnetb 包 设计 神经 网 络 作 为 开始 。 然 后 介绍 
^N a Ho 通过 本 


独 经 网 络 如 何 从 数据 中 学 习 ， 以 及 背后 的 原理 。 本 书 肖 盖 了 各 种 类 型 的 神经 网 络 ， 包 括 循环 神经 网 络 和 卷 积 昼 经 网 络 
书 ， 读 者 不 仅 可 以 学 习 如 何 训练 神经 网 络 ， 还 可 以 探索 这 些 神 经 网 络 的 泛 化 。 最 后 深入 研究 不 同 的 神经 网 络 模型 ， 并 与 现实 世界 


gtd 


的 用 例 相 结合 。 
在 本 书 的 最 后 ， 读 者 将 在 实际 案例 的 帮助 下 ， 学 会 在 目 己 的 应 用 程序 中 实现 神经 网 络 模型 


本 书 内 容 
第 1 章 介 绍 人 工 神经 网 络 (Artificial Neural Network, ANN) 和 人 工 智 能 的 基本 概念 与 理论 ， 展 示 ANN 和 Al 的 简单 应 用 程 


FREE. YRXJRHRBJANNERSZIURIT1TS8 
第 2 草 介绍 如 何在 图 形 模 型 中 进行 精确 推断 ， 并 展示 作为 专家 系统 的 应 用 程序 。 推 断 算 法 是 学 习 和 使 用 这 类 模型 的 基础 。 读 
者 至 少 需 要 了 解 它们 的 用 处 及 工作 原理 。 


第 3 章 阐述 深度 学 习 和 深度 学 习 中 昼 经 网 络 的 使 用 。 该 章 使 用 R 的 添加 包 介 绍 神经 网 络 实现 过 程 的 细节 ， 肖 关 许 多 为 深度 学 
习 设置 的 隐藏 层 ， 并 使 用 实用 的 数据 集 来 帮助 读者 理解 实现 过 程 。 
ri 


第 4 章 介绍 感知 机 以 及 使 用 它 构 建 的 应 用 程序 ， 以 及 基于 R 的 感知 机 实现 。 


读者 更 好 地 理解 神经 网 络 


第 5? 章 涵 关 使 用 数据 集训 练 神 经 网 络 的 另 一 个 案例 ， 还 通过 使 用 函数 plot0 对 输入 层 、 隐 藏 层 和 输出 层 进 行 图 形 表 示 ， 帮 助 


可 以 米 用 不 同 的 数据 集 


. iT 


第 6 章 介绍 循环 神经 网 络 和 卷 积 神经 网 络 及 其 在 R 中 的 实现 。 同 时 提出 几 个 案例 帮助 读者 了 解 基本 概念 。 
n^n 领 


第 7 章 介 绍 不 同 领域 的 神经 网 络 应 用 ， 以 及 神经 网 络 如 何在 Al 领域 中 使 用 。 有 助 于 读者 了 解 神经 网 络 算法 的 实际 应 用 。 读 者 
R 代 码 来 进一步 增强 自身 的 技能 
准备 工作 


本 书 着 重 于 R 环 境 中 的 神经 网 络 ， 使 用 R 3.4.1 和 RStudio 1.0.153 来 建立 各 种 应 用 程序 、 开 源 和 企业 级 专业 软件 。 本 书 专注 
将 使 读者 能 够 轻松 地 读 懂 代码 ， 并 在 不 同 的 场景 中 轻松 使 用 。 
本 书 读者 对 象 


于 如 何以 最 佳 廊 式 利 用 各 种 R 添 加 包 来 构建 现实 世界 的 应 用 程序 。 本 着 这 种 精神 ， 我 们 尽量 保持 所 有 代码 的 友好 性 和 可 读 性 。 这 


本 书 适 用 于 任何 具有 R 和 统计 背景 知识 ， 同 时 希望 使 用 神经 网 络 从 复杂 数据 中 获得 更 好 结果 的 人 。 如 果 你 对 人 工 智 能 和 深度 
学 习 感 兴趣 ， 并 希望 提升 目 己 ， 那 么 这 本 书 融 是 你 所 需要 的 ! 
下 载 示例 代码 


读者 可 以 从 http://www.packtpub.com 或 者 华章 网 站 http://www.hzbook.com/ 下 载 本 书 的 示例 代码 。 


第 1 重 


章 ”神经 网 络 和 入 工 针 能 概念 
在 几 个 世纪 以 来 进行 的 科学 和 哲学 研究 中 


可 以 创建 能 够 模仿 这 些 机 制 中 的 一 部 分 的 机 器 


已 经 确定 了 作为 人 类 智力 基础 的 特殊 机 制 。 从 这 些 机 制 的 运作 中 获得 灵感 ， 我 们 
。 问 题 是 ， 
(Artificial Intelligence，Al) 系统 在 很 大 程度 上 是 不 完 


这 些 机 制 还 没有 得 到 成 功 的 模拟 和 整合 
完整 的 。 
络 的 机 制 开 始 


Di 
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所 以 我 们 拥有 的 人 工 智能 
改进 这 种 机 器 的 一 个 决定 性 的 步骤 是 使 用 所 谓 的 人 工 神经 网 络 (Artificial Neural Network, ANN) ， 从 调 书 目 然 神经 网 
计划 模拟 人 类 思维 。 现 在 ， 软 件 可 以 模拟 


ZW 
国际 象棋 比赛 所 需 的 机 制 ， 或 者 根据 语法 规则 将 文本 翻译 成 不 同 语 


本 章 介 绍 ANN 和 Al 的 基本 理论 概念 。 读 者 需要 对 以 下 内 容 有 基本 的 了 解 : 

- 高 中 基础 数学 ， 各 种 微 积分 和 函数 (Ansigmoidii dX). 知识 。 

| 有 信 编程 和 R 库 的 使 用 。 
本 章 将 介绍 神经 网 络 的 基础 知识 ， 并 尝试 使 用 R 建 立 一 个 模型 。 本 草 是 和 神经 网 络 和 所 有 后 续 草 节 的 基础 。 
AEn : 

- ANN 概 念 

C 神经 元 、 感 知 机 和 多 层 神经 网 络 

偏差、 权重、 激活 函数 和 隐 含 层 

-前 向 和 反 向 传播 方法 

- 图 形 处 理 单元 的 简介 


在 本 章 结 束 时 ， 你 将 能 够 识别 不 同 的 神经 网 络 算法 和 R 提 供 的 用 来 处 理 它 们 的 工具 。 


1.1 简介 


大 脑 是 人 体 最 重要 的 器 官 。 它 是 我 们 执行 所 有 功能 的 中 央 处 理 单元 。 大 脑 只 有 1.5kg， 拥 有 约 860 亿 个 神经 元 。 神 经 元 被 定 
义 为 传递 神经 刺激 或 电化 学 信号 的 细胞 。 大 脑 是 一 个 复杂 的 神经 元 网 络 ， 它 通过 几 个 相互 关联 的 神经 元 系统 来 处 理 信 息 。 了 解 大 
脑 的 功能 一 直 是 一 项 艰巨 的 任务 。 然 而 ， 由 于 计算 技术 的 进步 ， 现 在 可 以 人 为 编程 神经 网 络 。 


ANN 的 工作 原理 源 于 模拟 同样 正在 试图 解决 问题 的 人 脑 的 功能 这 一 想法 。 相 关 常 规 方法 的 缺点 以 及 ANN 连 续 应 用 的 问题 已 
经 在 明确 的 技术 环境 中 得 到 克服 。 

Al 或 机 器 智能 中 在 将 认 知 能 力 赋予 计算 机 ， 通 过 编程 来 学 习 和 解决 问题 。 其 目的 是 模拟 具有 人 类 智能 的 计算 机 。Al 不 能 完 
模拟 人 的 智慧 ; 计算 机 只 能 通过 程序 来 完成 人 脑 某 泽 万 面 的 工作 。 

机 器 学 习 是 Al 的 一 个 分 支 ， 它 帮助 计算 机 根据 输入 数据 对 自己 进行 编程 。 机 器 学 习 使 Al 能 够 基于 数据 解决 问题 。ANN 是 机 
器 学 习 算法 的 一 个 例子 。 

深度 学 习 (Deep learning, DL) 是 具有 更 多 处 理 层 的 复杂 神经 网 络 集 ， 开 发 过 程 高 度 抽象 。DL 通 常用 于 复杂 的 任务 ， 如 
图 像 识 别 、 图 像 分 类 和 手写 识别 。 

大 多 数 读者 认为 利 经 网 络 难以 学 习 并 将 其 当 作 黑匣子 。 本 书 打算 打开 这 个 黑匣子 ， 帮 助 读 者 学 习 神 经 网 络 在 R 中 的 内 部 实 
现 。 通 过 知识 管理 ， 读 者 可 以 看 到 许多 ， 神 经 网 络 友 挥 重要 作用 的 场景 ， 见 下 图 . 


1.2 利 经 网 络 的 灵感 


独 经 网 络 的 灵感 来 源 于 人 脑 的 工作 方式 。 人 类 的 大 脑 可 以 使 用 人 类 感知 (特别 是 视觉) 友 送 的 数据 来 处 理 大 量 的 信息 。 该 处 
理由 昼 经 元 完成 ， 神 经 元 对 通过 它们 的 电信 号 起 作用 ， 并 施加 触 友 器 逻辑 ， 例 如 打开 和 关闭 | 门 以 使 信号 通过 。 下 图 显示 了 神经 元 
的 结构 。 
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每 个 神经 元 的 主要 成 分 是 : 


- 树 突 (dendrite) : 每 个 神经 元 的 入 口 点 ， 信 号 以 电 脉冲 的 形式 从 神经 网 络 中 的 其 他 神经 元 接受 输入 。 
- 细胞 体 (cell body) : 它 从 树 突 输入 端 产生 推断 并 决定 采取 什么 行动 。 
- 轴 突 终端 (axon terminal) : 以 电 脉冲 的 形式 将 输出 传输 到 下 一 个 神经 元 。 

每 个 神经 元 只 有 在 信号 超过 某 个 阅 值 时 才 处 理 它 。 神 经 元 要 么 放电 要 么 不 放电 ; 要 么 为 0 要 么 1。 


A 一 直 出 现 科幻 电影 和 小 说 里 。Al 中 的 ANN 上 自 20 世 纪 50 年 代 束 已 经 存在 ,但 由 于 计算 架构 和 性 能 的 提高 ， 它 在 过 去 10 年 中 
变 得 更 加 重要 。 计 算 处 理 方面 的 重大 进展 推动 了 以 下 技术 的 友 展 : 


° 大 规模 并 行 计 算 o 
.分 布 式 表示 和 计算 。 


- 学 习 和 泛 化 能 力 。 


` fi de MI e 


在 数值 计算 和 符号 操作 的 领域 ， 对 于 解决 集中 式 架构 的 问题 ， 现 代 计 算 机 在 更 大 程度 上 超越 了 人 类 。 然 而 ， 在 模式 识别 、 降 
噪 和 优化 领域 却 藻 后 于 人 类 。 一 个 小 孩 可 以 在 巨大 的 人 群 中 找 出 他 /她 的 妈妈 ， 但 是 具有 集中 式 架 构 的 计算 机 无 法 做 到 这 一 点 。 


这 也 是 大 脑 的 生物 神经 网 络 超越 机 器 的 地 方 ， 因 此 人 们 想 开 友 一 种 模仿 人 类 大 脑 的 松散 的 分 布 式 蔡 代 架构 。 
ANN 是 由 大 量具 有 许多 互 连 的 简单 处 理 器 组 成 的 大 规模 并 行 计算 系统 。 


全 球 领 元 的 通讯 社 之 一 Guardian， 通 过 上 传 所 有 档案 的 快照 ， 利 用 大 数据 来 仔 档 。 然 而 ， 用 户 复制 内 容 并 企 其 他 地 万 使 用 


是 受 限制 的 。 为 了 克服 这 一 缺点 ， 人 们 可 以 使 用 AN N 进 行文 本 模式 识别 ， 将 图 像 转换 为 文本 文件 ， 然 后 根据 最 终 用 户 的 需要 再 
将 其 转换 为 任何 格式 ， 
1.3 ”神经 网 络 的 工作 原理 


类 似 于 生物 神经 元 结构 ，ANN 将 神经 元 定义 为 中 央 处 理 单元 ， 其 执行 数学 运算 以 从 一 组 输入 生成 一 个 输出 。 神 经 元 的 输出 
是 输入 的 加 权 和 加 上 偏 舌 的 消 数 。 如 果 接 收 到 的 信号 思量 超过 激活 阅 值 ， 则 每 个 神经 元 都 执行 非常 简单 的 操作 ， 如 下 图 所 示 。 


神经 元 的 输出 是 输入 的 加 
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似 。 现 在 将 介绍 与 ANN 有 关 的 新 术语 : 
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任何 神经 网 络 处 理 框 架 都 具有 以 下 架构 。 


( )— 输出 层 


该 架构 中 包含 一 组 输入 、 一 个 处 理 器 和 一 组 输出 。 在 神经 网 络 中 也 遵循 这 种 分 层 方 法 。 输 入 构成 输入 层 (input layer) , 
执行 处 理 的 中 间 层 (middle layer) MARAE (hidden layer) ， 输 出 (output) 构成 输出 层 。 


独 经 网 络 以 构 也 基于 相同 的 原理 。 隐 合 层 将 输入 转换 为 所 需 的 输出 。 要 理解 隐 含 屋 ， 需 要 类 道 权 重 、 侦 差 和 激活 函数 ， 这 是 
接 下 来 讨论 的 话题 。 


15 ”权重 和 偏差 


ANN 中 的 权重 是 转换 输入 为 输出 的 过 程 中 最 重要 的 因素 。 这 与 线性 回归 中 的 斜率 类 似 ， 其 中 权重 乘 以 输入 再 加 起 来 形成 输 
出 。 权 重 是 确定 每 个 神经 元 对 另 一 个 神经 元 的 影响 的 数值 参数 。 


对 于 典型 的 神经 元 ， 如 果 输 入 为 X1、x2 和 x3， 要 施加 给 它们 的 突 触 权重 表示 为 w1、w2 和 w3， 那 么 输出 表示 为 


y= f(x)= 2M, 


其 中 ，i 为 输入 的 个 数 ，1<i<n。 
简单 来 史 ， 这 是 通过 一 个 炬 阵 乘法 来 得 到 加 权 和 。 
偏 磊 束 像 在 线性 方程 中 添加 的 截 距 。 这 是 一 个 额外 的 参数 ， 用 于 调整 输出 以 及 输入 到 神经 元 的 加 权 和 |。 
因此 ， 由 神经 元 进行 的 处 理 表示 为 : 
output=sum(weights*inputs)+bias 


在 该 输出 上 应 用 了 一 个 函数 ， 称 为 激活 函数 。 下 一 层 的 输入 是 上 一 层 和 神经 元 的 输出 ， 如 下 图 所 示 。 


练 钊 经 网 络 


1.6 yl 


训练 是 向 网 络 呈 现 一 些 样 本 数据 并 修改 权重 以 更 好 地 近似 所 需 消 数 的 行为 。 有 两 种 主要 的 训练 类 型 : 有 监督 学 习 和 无 监督 学 
习 。 


1.6.1 有 监督 学 习 


有 上 监督 学 习 中 ， 我 们 为 神经 网 络 提 供 输入 和 所 需 的 输出 。 度 量 网 络 对 输入 的 咽 应 。 修 改 权 重 以 减少 实际 值 和 所 需 输出 之 间 的 


差异 
1.6.2 无 监督 学 习 


无 监督 学 习 中 ， 只 提供 输入 。 神 经 网 络 调整 目 己 的 权重 ， 使 类 似 的 输入 产生 类 似 的 输出 。 网 络 识 别 输入 中 的 模式 和 差异 ， 无 
须 任 何 外 部 帮助 。 


1.7 epoch 


一 次 迭代 或 完成 提供 网 络 输入 和 更 新 网 络 权重 的 过 程 称 为 epoch。 它 是 一 个 完整 的 前 向 和 反 向 传播 ， 用 于 更 新 权重 。 它 也 是 


对 整个 数据 集 的 完整 阅读 。 


通常 ， 有 时 需要 数 万 次 的 epoch 来 有 效 地 训练 神经 网 络 。 以 后 的 章节 会 介绍 更 多 天 于 epoch 的 内 容 。 


1.8 EX EIE 

昼 经 网 络 的 处 理 过 程 主要 通过 激活 函数 实现 。 激 活 函 数 是 将 输入 转换 为 输出 的 数学 负数 ， 并 提升 神经 网 络 的 处 理 能 力 。 没 有 
激活 函数 ， 和 神经 网 络 的 工作 原理 如 同 线性 函数 的 工作 原理 一 样 。 绪 性 函数 是 输出 与 输入 成 正比 的 函数 ， 例 如 : 

y=2x+1 

y=t(%) 

一 个 线性 消 数 是 一 个 一 阶 多 项 式 。 简 单 来 说 ， 它 是 一 条 没有 任何 曲线 的 直线 。 


然而 ， 神 经 网 络 关 试 解决 的 大 多 数 问 题 本 质 上 是 非 线性 和 复杂 的 。 为 了 实现 非 线 性 ， 需 要 使 用 激活 函数 。 非 线性 函数 是 高 阶 
ZIMA, USD: 

y=x° 

y=sin(x) 
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激活 函数 赋予 神经 网 络 非 线 性 的 特性 ， 使 其 成 为 真正 的 通用 函数 逼近 器 。 


1.9. 7ARIB RES 


有 许多 激活 函数 可 供 神经 网 络 使 用 。 这 里 介绍 其 中 的 几 个 。 


1.9.1 £XPEBSEN 


线性 为数 是 最 简单 的 激活 国 数 ， 通 带 用 作 神 经 网 络 输 出 层 中 的 激活 国 数 ， 由 以 下 公 陈 表示 : 
y=t(x)=x 


Bea CH S SNTHIS), BEE] (-00, +00) 中 定义 。 下 图 显示 了 线性 激活 函数 。 
线性 函数 
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1.9.2 FRUTAS RAEN 


单位 阶 跃 激活 函数 是 神经 网 络 中 非 音 有 用 的 特征 。 假 设 负 参数 对 应 的 输出 为 0， 正 参数 对 应 的 输出 为 1， 函 数 如 下 : 


x <0 


1, x 


范围 为 (0,1)， 并 且 输 出 本 质 上 是 二 值 的。 这 举 类 型 的 激活 函数 对 于 二 值 问题 很 有 用 。 当 要 选择 输入 模型 中 的 两 组 输入 中 的 一 


组 时 ， 可 以 使 用 具有 单位 阶 跃 激活 函数 的 二 值 编译 器 。 单 元 阶 跃 激活 函数 如 下 图 所 示 。 
单位 阶 路 函数 
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1.9.3 sigmoid% 

sigmoid 逆 数 是 产生 s 形 曲线 的 数学 久 数 。 它 是 最 早 的 也 是 经 常 使 用 的 激活 函数 。 它 将 输入 压缩 为 0 到 1 之 间 的 任何 值 ， 并 使 
模型 具有 逻辑 六 数 的 性 质 。 该 函数 是 指 由 以 下 公式 定义 的 逻辑 函数 的 特殊 情况 : 

f(x)=1/(1+e™) 

下 图 显示 了 S 形 的 sigmoid 曲 线 。 


sigmoid PAZ 
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1.9.4 双 曲 正切 函数 


另 一 种 非 冲 受 欢迎 且 广 泛 使 用 的 激活 函数 是 双 曲 正切 函数 (tanh) 。 如 下 图 所 示 ， 它 看 起 来 非常 类 似 于 sigmoid 遂 数 。 
实际 上 ， 它 是 一 个 缩放 的 sigmoid 遂 数 。 这 是 一 个 非 线 性 浮 数 ， 在 范围 (-1,1) 内 定义 ， 因 此 不 必 担 心 激活 后 放大 的 情况 。 有 一 点 
需要 澄清 的 是 ，tanh 的 梯度 比 sigmoid 更 大 (导数 更 陡峭 ) 。 对 sigmoid 和 tanh 消 数 的 选择 将 取决 于 对 梯度 大 小 的 要 求 。 和 
sigmoid 孙 数 一 样 ，tanh 晃 数 也 有 和 斜率 缺失 的 问题 。 该 消 数 由 以 下 公式 定义 : 


f(x)=tanh(x) 


下 图 显示 了 一 个 双 曲 正切 激活 函数 。 
双 曲 正切 函数 
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1.9.5 £EMEIZIESBZUERZN 


线性 修正 单元 函数 (Rectified Linear Unit, ReLU) 是 2015 年 以 来 使 用 最 多 的 激活 函数 。 简单 的 条 件 ， 并 且 具 有 
优 于 其 他 函数 的 优点 。 该 函数 由 以 下 公式 定义 : 


下 图 显示 了 一 个 ReLU 激 活 疼 数 。 


ReLU K% 
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ERRIA 


1.10 (sea RASS 
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- 应 该 是 可 导 的 。 我 们 在 反 向 传播 中 将 看 到 为 什么 需要 激活 函数 是 可 导 的 。 并 且 激 活 函 数 它 不 应 该 导致 梯度 消失 。 


: 处 理应 该 简单 快捷 。 
- 不 应 该 以 零 为 中 心 。 
sigmoid 是 最 党 用 的 激活 函数 ， 但 它 有 以 下 缺点 : 
. 由 于 它 使 用 逻辑 模型 ， 所 以 计算 耗 时 且 复 杂 。 
它 会 导致 梯度 消失 ， 并 且 在 某 些 时 间 点 没有 信号 通过 神经 元 。 
. 收敛 速度 很 慢 
` 它 不 是 以 零 中 心 的 。 


这 些 缺 点 可 由 ReLU 消 数 解 决 。ReLU 较 数 人 简单 且 处 理 速度 更 快 。 它 没有 梯度 消失 的 问题 ， 并 且 与 sigmoid 消 数 和 tanh 消 数 相 
比 有 巨大 的 改进 。 ReLU 阅 数 是 神经 网 络 和 DL 问题 首选 的 激活 函数 。 


ReLU 遂 数 用 于 隐 合 层 ， 而 在 输出 层 中 ， 对 于 人 逻辑 问题 可 以 使 用 softmax 阴 数 ， 对 于 回归 间 题 可 以 使 用 线性 消 数 。 


1.11 ID UR ER A 


感知 机 是 将 一 组 输入 分 为 两 类 (通常 为 1 或 -1) 的 单个 昼 经 元 。 如 果 输 入 是 网 格 的 形式 ， 感 类 机 可 用 于 识别 视觉 图 像 的 形 
状 。 感 知 机 通 划 使 用 阶 跃 函数 ， 如 果 输 入 的 加 权 和 超过 国 什 ， 则 返回 1， 人 否则 返回 0。 


当 感 知 机 层 组 合 在 一 起 时 ， 则 形成 了 多 层 染 构 ， 这 就 造成 了 神经 网 络 处 理 的 复杂 性 。 多 层 感 和 类 机 (MLP) 是 神经 网 络 中 应 
用 最 广 泛 的 3 架构 。 


1.12 ”前 同和 反问 传播 


从 输入 层 到 隐 含 屋 ， 然 后 到 输出 层 的 处 理 称 为 前 向 传播 (forward propagation) 。 在 每 层 施 加 sum (WARNE) +a 
差 ， 然 后 将 激活 函数 值 传播 到 下 一 层 。 下 一 层 可 以 是 另 一 个 隐 含 层 或 输出 层 。 神 经 网 络 的 构建 使 用 了 大 量 的 隐 含 层 来 产生 深度 神 
经 网 络 (Deep Neural Network，DNN) 。 


一 旦 到 达 输 出 ， 在 最 后 一 层 (输出 层 ) ， 计 算 误 差 (预测 输出 减 去 原始 输出 ) 。 该 误差 用 来 纠正 前 同 传播 中 使 用 的 权重 和 偏 
寿 ， 在 这 里 使 用 了 导数 函数 。 必 须 改变 的 权重 由 梯度 下 降 (gradient descent) 决定 。 


反 向 传播 过 程 使 用 每 个 神经 元 的 激活 函数 的 偏 导 数 来 识别 每 个 进入 权重 的 方向 上 的 斜率 (或 梯度 ) 。 梯 度 能 够 表明 ， 权 重 变 
化 对 误差 的 降低 或 提升 有 多 大 影响 。 反 办 传 播 不 断 改变 权重 ， 直 到 误差 最 小 化 时 的 量 补 称 为 学 习 率 。 


学 习 率 是 一 个 标量 参数 ， 类 似 于 数值 积分 中 的 步 长 ， 用 于 设置 调整 率 以 更 快 地 减 小 误差 。 在 调整 权重 和 偏差 时 ， 学 习 率 在 反 
向 传播 中 使 用 。 


学 习 率 越 大 ， 算 法 运行 得 越 快 ， 误 差 减 小 得 越 快 ， 训 练 过 程 也 融 越 快 。 


损失 函数 | 
J 很 大 的 学 习 率 


小 的 学 习 率 


恰当 的 学 习 率 
epoch 


1.13 ”逐步 部 明 伸 经 网 络 和 油 活 负 效 


现 及 取 分 步 的 方法 ， 用 一 个 隐 合 层 来 理解 前 向 和 反 向 传播 。 输 入 层 有 一 个 神经 元 ， 输 出 将 解决 二 值 分 类 问题 (预测 0 或 
1) 。 下 图 显示 了 市 有 单个 隐 合 层 的 前 向 和 反 向 传播 。 


目标 


a A 


神经 网 络 


调整 权重 


接 下 来 ， 让 我 们 详细 分 析 一 下 训练 网 络 的 所 有 操作 : 

1) 将 输入 作为 矩阵 。 

2) 用 随机 值 急 始 化 权重 和 侦 关 。 这 是 一 次 操作 ， 我 们 将 不 断 更 新 这 些 误差 传播 过 程 。 
3) 对 于 每 个 训练 模式 (以 随机 顺序 呈现 ) 重复 步骤 4) ~ 9) ， 直 到 误差 最 小 化 。 
4) 将 输入 应 用 于 网 络 。 

5) 计算 从 输入 层 通过 隐 合 层 到 输出 层 的 每 个 神经 元 的 输出 。 

6) 计算 输出 误差 ， 即 实际 值 减 去 预测 值 。 

7) 使 用 输出 误差 来 计算 先前 层 的 误差 信号 。 激 活 冰 数 的 侯 导 数 用 于 计算 误差 信号 
8) 使 用 误差 信号 计算 权重 调整 值 。 

9) 应 用 权重 调整 值 。 

步骤 4) 和 5) 是 前 同 传播 ， 步 又 6) ~ 9) ERER. 

学 习 率 是 配置 参数 控制 权重 更 新 的 量 。 

完整 的 前 向 和 上 反 向 传播 称 为 训练 周期 或 epoch。 更 新 的 权重 和 偏差 在 下 一 个 周期 中 使 用 。 保 持 迭 代 训 练 ， 直 到 误差 非常 小 。 


本 书 将 详细 介绍 前 向 和 反 向 传播 。 


1.14 BUTS iones 


在 神经 网 络 中 信号 可 以 仅 在 一 个 方向 上 流动 或 者 来 回流 动 。 对 应 于 第 一 种 情况 的 神经 网 络 称 为 前 馈 和 神经 网 络 以 构 ， 因 为 输入 
言 号 被 馈送 到 输入 层 ， 得 到 处 理 之 后 被 转 友 a 到 下 一 层 ， 如 下 图 所 示 。MLP 和 径 同 基 沙 数 也 是 前 馈 网 络 的 好 例子 。 下 图 显示 了 
MLPZRI, 


当 神 经 网 络 具 有 某 种 内 部 循环 时 ， 意 味 着 信号 被 反馈 到 已 经 接收 和 人 处理 该 信号 的 神经 元 或 屋 ， 这 种 网 络 是 反 
一 ， 如 下 图 所 示 。 
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在 网 络 中 添加 循环 的 特殊 原因 是 产生 动态 行为 ， 特 别 是 在 网 络 解决 涉及 时 间 序列 或 模式 识别 的 问题 时 ， 需 要 内 部 存储 器 来 加 
强 学 习 过 程 。 然 而 ， 这 样 的 网 络 特别 难以 训练 ， 最 终 不 能 学 习 。 大 多 数 反馈 网 络 是 单 层 的 ， 例 如 Elman 和 Hopfield 网 络 ， 但 是 可 
以 建立 一 个 循环 多 层 网 络 ， 如 echo 和 循环 MLP 网 络 。 


1.15 梯度 下 降 


梯度 下 降 是 任何 学 习 模型 中 用 于 纠 错 的 友 代 方法 。 对 于 反 回 传播 过 程 中 的 神经 网 络 ， 梯 度 下 降 法 根据 激活 函数 的 误 兰 欠 代 权 
重 和 偏 舌 的 更 新 过 程 。 最 深 的 下 降 步 长 由 前 一 步 的 相似 步 长 代替。 梯度 基本 上 定义 为 曲线 的 科 率 ， 是 激活 销 数 的 导数 。 


Jw) 
初始 权重 


全 局 最 小 成 本 
J min ( w) 


W 


在 每 个 步骤 中 推导 梯度 下 降 的 目的 是 找到 全 局 最 小 成 本 ， 此 时 误差 最 小 。 这 就 是 模型 能 够 适合 数据 和 预测 更 准确 的 地 方 。 


可 以 全 批量 或 随机 进行 梯度 下 降 。 在 全 批量 梯度 下 降 中 ， 梯 度 针对 全 批量 训练 数据 集 计 算 ， 而 随机 梯度 下 降 (SGD) 采用 
单个 样本 执行 梯度 计算 。 后 者 也 可 以 及 取 小 批量 进行 计算 。SGD 的 一 个 优点 是 可 更 快 地 计算 梯度 。 


ANN 的 基础 是 相同 的 ， 但 是 在 其 进化 过 程 中 设计 出 了 各 种 神经 网 络 模型 。 以 下 是 几 个 ANN 模 型 : 


- 上 自 适应 线性 元 件 (Adaptive Linear Element, ADALINE) 是 一 种 简单 的 感知 机 ， 只 能 解决 线性 问题 。 每 个 神经 元 获取 输入 
的 加 权 线 性 和 ， 并 将 其 传递 给 双 极 骂 数 ， 根 据 总 和 ， 它 们 产生 +1 或 -1。 该 函数 检查 传递 的 输入 和 ， 如 果 它 的 值 大 于 等 于 0， 则 结 
果 为 +1， 否 则 为 -1。 


: $£ €ADALINE (Multiple ADALINE, MADALINE) 是 多 个 ADALINE 单 元 组 成 的 多 层 网 络 。 
“ 感知 机 是 单 层 神经 网 络 〈 单 个 神经 元 或 单元 ) ， 其 中 输入 是 多 维 (向 量 ) 的 ， 输 出 是 输入 的 加 权 和 的 函数 。 


径 向 基 吕 数 网 络 是 使 用 径 向 基 洱 数 作 为 激活 函数 的 ANN。 网 络 的 输出 是 输入 和 一 些 神经 元 参数 的 径 向 基 咏 数 的 线性 组 


中 
o 


前 馈 是 最 简单 的 神经 网 络 形式 。 数 据 在 层 之 间 进 行 处 理 ， 而 没有 任何 循环 步骤 。 本 书 将 研究 以 下 前 馈 网 络 : 
- 自 编码 神经 网 络 


- 概率 神经 网 络 


- 时 延 神经 网 络 
- 卷 积 神经 网 络 


- 循环 神经 网 络 (Recurrent Neural Network, RNN) 与 前 馈 网 络 不 同 ， 数 据 向 前 传播 ， 也 从 后 期 处 理 阶 段 传播 到 早期 阶段 。 
以 下 是 RNN 的 类 型 ， 后 面 章节 也 会 介绍 它们 : 


- Hopfield 神 经 网 络 

- RAZZ HL (Boltzmann machine) 

. 自 组 织 映 射 (Self Organizing Map, SOM) 

. 双向 联想 记忆 (Bidirectional Associative Memory, BAM) 


- 长 短期 记忆 (Long Short Term Memory, LSTM) 


下 图 描绘 了 循环 神经 网 络 和 前 馈 神 经 网 络 。 


a) 循环 神经 网 络 b) 前 局 神经 网 络 


1.17 ”使 用 Ri 如 言 神 经 网 络 添加 包 neuralnet() 的 简单 示例 


考虑 一 个 数字 平 万 的 简单 数据 集 ， 用 于 训练 R 中 的 neuralnet 函 数 ， 然 后 测试 该 神经 网 络 的 准确 性 。 
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目标 是 建立 权重 和 偏差 ， 使 异型 能 够 完成 所 需 的 工作 。 输 出 需要 根据 输入 的 函数 进行 建 模 ， 该 函数 在 将 来 可 以 根据 输入 来 确 


定 输 出 : 


Hit HE HE FE FE Hat FE HE HF FE FE HE HE FE HE E HH FE HE EE ERE AERE FF FE E FE Fat EE HE E HE EE EE HEE EE EEE ERE EE FE FF FF H E HF 
###Chapter 1 - Introduction to Neural Networks - using R ###H HHRH HHRHH HHH 
###Simple R program to build, train and test neural Networksliidiiddd4dg4454344 
H at HE HE EE HE FE FE EE FE FE HE HE EE EE ERE EE FE FE FE ERE ERE EE EE EE EE FHF EE ETE ETE EEE ERE ERE ERE ERE ERE ERE ER FHF 


#Choose the libraries to use 
library ("neuralnet") 


#Set working directory for the training data 
setwd("C:/R") 
getwd () 


#Read the input file 
mydata=read.csv('Squares.csv', sep=",",header=TRUE) 
mydata 

attach (mydata) 

names (mydata) 


#Train the model based on output from input 
model=neuralnet (formula = Output-Input, 
data = mydata, 
hidden=10, 
threshold=0.01 ) 
print (model) 


#Lets plot and see the layers 
plot (model) 


#Check the data - actual and predicted 
final output=cbind (Input, Output, 
as.data.frame(model$net.result) ) 
colnames(final output) = c("Input", "Expected Output", 
"Neural Net Output" ) 
print(final output) 
if Ht HH HE SERE TEE HE HE HF EE ERE ERE HEH HF HH HE HF E HE HE E HE ETE TEE E E HF HE HE HE HE EE HE HEHE HE TEE RETE E HE HE ETE ERE ETE E E ERE ERE ERE HE ER 


逐 行 浏览 代码 


为 了 让 读者 了 解 刚 才 提出 的 代码 的 所 有 处 理 步 骤 ， 这 里 将 详细 介绍 它们 。 不 要 担心 ， 首 先 ， 代 码 显示 如 下 : 


library ("neuralnet") 


R 中 的 命令 行 包括 代码 中 的 添加 包 neuralnet(0。 函 数 neuralnet() 是 综合 R 存 档 网 络 (Comprehensive R Archive 
Network, CRAN) 的 一 部 分 ， 其 中 包含 许多 用 于 各 种 应 用 的 R 添 加 包 。 


mydata=read.csv('Squares.csv',sep=",",header=TRUE) 


mydata 
attach (mydata) 
names (mydata) 


这 自命 令 行 将 使 用 分 隔 符 、 逗 号 读 取 CSV 文 件 ， 参 数 header 是 指 文 件 的 第 一 行 。 参 数 names() 将 显示 文件 的 头 。 


model=neuralnet (formula = Output~Input, 
data = mydata, 
hidden=10, 
threshold=0.01 ) 


这 段 代 码 根据 输入 对 输出 进行 训练 。 同 函数 neuralnet0 传 递 输出 和 输入 的 列 名 称 (ouput-input) 、 要 使 用 的 数据 集 、 隐 
舍 层 中 的 神经 元 数量 和 停止 条 件 (threshold) 。 


官方 文档 中 的 添加 包 neuralnet 的 简要 说 明 如 下 表 所 示 。 


添加 包 neuralnet 
摘 述 

使 用 反 向 传播 训练 神经 网 络 ， 包 含 (Riedmiller, 1994) 或 不 包含 权重 回溯 ( Riedmiller, 1993 ) 的 弹性 反 向 传 
播 ， 或 由 Anastasiadis A ( 2005 ) 修改 的 全 局 收敛 版 本 。 该 添加 包 可 以 通过 目 定 义 误差 和 激活 明 数 进行 灵活 设 
置 。 此 外 ， 可 以 进行 广义 的 权重 计算 CIntrator O & IntratorN，1993 ) 。 

详细 信息 

添加 包 : neuralnet 

类 型 : 添加 包 

版 本 : 1.33 

日 期 : 2016-08-05 

许可 证 : GPL (>=2 ) 


作者 : 


Stefan Fritsch, Frauke Guenther(email:guenther@leibniz-bips.de) 
维护 者 : Frauke Guenther(guenther@leibniz-bips.de) 


用 法 : 

neuralnet (formula, data, hidden = 1, threshold = 0.01, stepmax = le+05, rep = 1, 
startweights = NULL, learningrate.limit = NULL, learningrate.factor = list(minus = 0.5, 
plus = 1.2), learningrate=NULL, lifesign = "none", lifesign.step = 1000, algorithm = 
"rpropt", err.fct = "sse", act.fct = "logistic", linear.output = TRUE, exclude = NULL, 
constant.weights = NULL, likelihood = FALSE) 

参数 的 含义 : 


formula: 需要 拟 合 的 模型 的 伯 号 描述 。 

data: 包含 公式 中 指定 的 变量 的 数据 框 。 

hidden: 一 个 整数 回 量 ， 指 定 每 个 层 中 隐 含 的 神经 元 〈 顶 点 ) 的 数量 。 

threshold: 指定 误差 函数 的 侦 导 数 的 国 值 的 数值 ， 即 为 停止 条 件 。 

stepmax: 训练 神经 网 络 的 最 大 步骤 。 达 到 这 个 最 大 值 ， 神 经 网 络 的 训练 过 程 会 停止 。 

rep: 神经 网 络 训练 的 重复 次 数 。 

startweights: 包含 权重 的 初始 值 的 回 量 。 权 重 不 会 随机 初始 化 。 

learningrate.limit: 一 个 包含 学 习 率 最 低 和 最 高 限制 的 回 量 或 列表 ， 仅 用 于 RPROP 和 GRPROP。 
learningrate.factor: 一 个 包含 用 于 上 限 和 下 限 学 习 率 的 乘法 因子 的 回 量 或 列表 ， 仅 用 于 RPROP 和 GRPROP。 
learningrate: 指定 传统 反 回 传播 所 使 用 的 学 习 率 的 数值 ， 仅 用 于 传统 的 反 回 传播 。 


(ZÈ) 
lifesign: 一 个 字符 串 ， 指 定神 经 网 络 计算 过 程 中 的 打印 功能 “none” “minimal” 或 “full”。 
lifesign.step: 一 个 整数 ， 用 于 指定 在 lifesign 为 “full” 的 情况 下 打印 最 小 国 值 的 步 长 。 
algorithm: 一 个 包含 算法 类 型 的 字符 串 ， 用 来 计算 神经 网 络 。 
err.fet: 用 于 计算 误差 的 可 微分 图 数 。 
act.fct: 用 于 平滑 协 变 量 或 神经 元 和 权重 的 点 积 的 可 微分 函数 。 
linear.output: 逻辑 值 。 如 果 act.fct 不 应 用 于 输出 神经 元 ， 则 将 线性 输出 设置 为 TRUE， 否 则 为 FALSE. 
exclude: 一 个 回 量 或 矩阵， 指定 从 计算 中 排除 的 权重 。 
constant.weights: 一 个 回 量 ， 指 定 从 训练 过 程 中 排除 的 固定 的 权重 值 。 
likelihood: 逻辑 值 。 如 果 误 差 图 数 等 于 负 对 数 似 然 函 数 ， 则 计算 AIC 和 BIC 信息 准则 ， 而 且 将 使 用 置信 和 度 。 

置信 区 间 也 是 有 意义 的 。 


在 简单 介绍 添加 包 文 档 后 ， 现 来 回顾 一 下 之 前 提供 的 代码 示例 中 剩余 的 部 分 : 


print (model) 


此 命令 行 打印 出 刚刚 生成 的 模型 ， 如 下 所 示 : 


Sresult.matrix 


error 
reached.threshold 
steps 
Intercept.to.llayhid1l 
Input.to.1layhid1l 
Intercept.to.l1layhid2 
Input.to.1layhid2 
Intercept.to.1layhid3 
Input.to.1layhid3 
Intercept.to.l1layhid4 
Input.to.1llayhid4 
Intercept.to.1layhid5 
Input.to.llayhid5 
Intercept.to.1layhid6 
Input.to.1layhid6 
Intercept.to.1llayhid7 
Input.to.1layhid7 
Intercept.to.llayhid8 
Input.to.1layhid8 
Intercept.to.1layhid9 
Input.to.1layhid9 


Intercept.to.1layhid10 


Input.to.llayhzadig 

Intercept.to.Output 
llavyhid.l.to.Output 
llayhid.2.to.Output 
llayhid.3.to.Output 
llayhid.4.to.Output 
llayhid.5.to.Output 


1 


.001094100442 
.009942937680 


000000000000 


doJ9S44 712981580 
267970997079 
.352189417430 
.185293148851 
.108325110066 
.242001064132 
.895335140784 
.334791491801 
.764125889399 
.037696638808 
.891447011323 
.168603081208 
.305272978434 
.183154841948 
.056059256828 
.939818815422 
.716095585596 
.199246231047 
.041789457410 
.971900813630 
AI9SDIZZSTIA4S 
.701406269616 
.225793088326 
9991724290793 
.957437333162 
.897986621510 


llayhid.6.to.Output 
llayhid.7.to.Output 
llayhid.8.to.Output 
llagyhi13g.,9.Eto.Outpbut 
llavhid.10.to.Output 


回 到 代码 分 析 : 


plot (model) 


上 述 命令 为 我 们 绘制 了 一 个 神经 网 络 ， 如 下 所 示 。 


19.159646982676 
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.437748965610 
16 . 
.328504039013 
. 900353775268 


049490298968 


Input 


final _output=cbind (Input, Output, 
as.data.frame(model$net.result) ) 
colnames (final output) = c("Input", "Expected Output", 
"Neural Net Output" ) 
print (tinal output) 


上 述 代码 打印 最 终 和 输出， 将 输出 预测 值 和 实际 值 进行 比较 : 


> print(final output) 
Input Expected Output Neural Net Output 


1 0 0 —0.0108685813 
2 1 1 LU 
3 2 4 3.9699671691 
4 9 9.0173879001 
3 4 16 19,2950295515 
6 o 25 2940055212526 
7 6 36 359947131155 
8 7 49 49.0046689369 
9 8 64 63.9972090104 
10 9 81 81.0008391011 
11 10 100 99.9997950184 


1.18 ”使 用 添加 包 nnetO 进 行 实 现 


为 了 通过 添加 包 nnet(0 改 进 我 们 的 实践 ， 现 在 来 看 另 一 个 例子 。 这 次 将 使 用 在 餐厅 进行 客户 访谈 收集 到 的 数据 。 客 户 被 要 求 
对 以 下 方面 打分 : 服务 、 氛 围 和 食物 。 他 们 也 被 问 及 是 否 会 在 这 些 分 数 的 情况 下 给 予 小 费 (Tip) 。 在 这 种 情况 下 ， 输 入 数 为 2， 
输出 为 分 类 值 (Tip=1, No-tip=0) 。 


要 使 用 的 输入 文件 如 下 表 所 示 : 


P 
| 
FH 
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=e |e jejeje 
aloje juw j|N 
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~ 

中 
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(十 
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ie, 


这 是 3 个 输入 和 一 个 分 类 输出 的 分 类 问题 。 将 使 用 以 下 代码 解决 问题 : 


T E FE FE HH HE HE FE FE FE HH EE FH HH FE HE HE E E FE FE FE FE FE FE EE FE FE FE E FE AERE FH ERE FE FE HE HE FE FE E HE HE HF Ht ERE HE FH HHH 
##Chapter 1 - Introduction to Neural Networks - using R ##########FHHHHH 
###Simple R program to build, train and test neural networks ########### 
### Classification based on 3 inputs and 1 categorical output ########## 
Ht it ERE ETE HH HH FE FE FE E FE FHF at EE ERE HF at HE E HE HE EE FF ETE ERE HE ERE HE FE FHF FE FE ERE EE HE FF ERE ERE RE E HE 


###Choose the libraries to use 
library (NeuralNetTools) 
library (nnet) 


###Set working directory for the training data 
setwd("C:/R") 
getwd ( ) 


###Read the input file 
mydata=read.csv('RestaurantTips.csv',sep=",",header=TRUE) 
mydata 

attach (mydata) 

names (mydata) 


##Train the model based on output from input 
model=nnet (CustomerWillTip-ServicetAmbience-ctFood, 
data=mydata, 
size =5, 
rang=0.1, 
decay=5e-2, 
maxit=5000) 


print (model) 


plotnet (model) 
garson (model) 


HE HH HH HH HH HH FE HE FE HEH HE FE HE FE PE FE HE E HE FE HE HE HE HE HE HE FE HE FE FE HE a aE HEH E E HEH HE HE a HE HH HEH HEH HE ERE H 


逐 行 浏览 代码 


为 了 让 读者 了 解 刚才 提出 的 代码 的 所 有 处 理 步 骤 ， 这 里 将 详细 介绍 它们 。 首 先 ， 代 码 显示 如 下 : 


library (NeuralNetTools) 
library (nnet) 


其 中 包含 添加 包 NeuralNetTools 和 添加 包 nnet。 


###Set working directory for the training data 
setwd("C:/R") 


getwd() 

###Read the input file 
mydata-read.csv('RestaurantTips.csv',sep-",",header-TRUE) 
mydata 

attach (mydata) 


names (mydata) 


这 段 代 码 将 设置 工作 目录 并 读 取 输入 的 CSV 文 件 。 


##Train the model based on output from input 
model=nnet (CustomerWillTip~Service+Ambience+Food, 
data=mydata, 

size =5, 

rang=0.1, 

decay=5e-2, 

maxit=5000) 
print (model) 


XRRR nnet), HARCA. IWR. Aknet, BBs: 


> model=nnet (CustomerWillTip~Service+Ambience+Food, data=mydata, size =5, 
rang=0.1, decay=5e-2, maxit=5000) 

# weights: 26 

initial value 7.571002 

iter 10 value 5.927044 

iter 20 value 5.267425 


iter 30 value 5.238099 
iter 40 value 5.217199 
iter 50 value 5.216688 
final value 5.216665 
converged 


官方 文档 中 的 添加 包 nnet 的 简要 说 明 如 下 表 所 示 : 


添加 包 nnet: 前 馈 神 经 网 络 和 多 项 对 数 线 性 模型 


JHE: 
用 于 具有 单个 隐 含 层 的 前 馈 神 经 网 络 和 多 项 对 数 线性 模型 的 软件 。 
详细 信息 : 


添加 包 : nnet 

类 型 : 添加 包 

版 本 : 7.3-12 

Hit}: 2016-02-02 

许可 证 : GPL-2 | GPL-3 

作者 : 

Brian Ripley 

William Venables 

用 法 : 

nnet (formula, data, weights,subset, na.action, contrasts = NULL) 
参数 的 含义 : 

formula: JÉN ~ x1 +x2+... 的 公式 。 

data: 公式 中 指定 的 变量 所 在 的 数据 框 。 

subset: 指定 训练 样本 中 要 使 用 的 案例 的 索引 回 量 。 

na.action: 指定 如 果 找 到 NA 时 要 执行 的 晒 数 。 

contrasts: 模型 公式 中 作为 变量 出 现 的 一 些 或 全 部 因子 的 对 比 列表 。 


在 简单 介绍 了 添加 包 文 档 后 ， 现 来 回顾 代码 示例 中 的 命令 行 : 


print (model) 


此 命令 打印 出 了 遂 数 net() 的 详细 信息 : 


> print (model) 

a 3-5-1 network with 26 weights 
inputs: Service Ambience Food 
output (s): CustomerWillTip 
options were - decay=0.05 


要 绘制 模型 ， 请 使 用 以 下 命令 : 


plotnet (model) 


模型 绘制 如 下 ， 单 个 隐 含 层 中 有 5 个 节操 。 


B1 B2 


H1 


Service 11 : 一 - H2 
gy 
Ambience 12 z -i * X 元 H3 — O1 CustomerWillTip 
Food 13 H4 
H5 


使 用 添加 包 NeuralNetTools， 可 以 通过 garson 算 法 获得 神经 网 络 中 的 输入 变量 的 相对 重要 性 : 


garson (model) 


该 命令 打印 各 种 输入 参数 及 其 对 输出 预测 的 重要 性 ， 如 下 图 所 示 。 
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Ambience Food Service 
从 应 用 garson 算 法 获得 的 图 表 中 ， 可 以 注意 到 ， 在 给 小 费 的 决定 中 ， 客 户 享 受 的 服务 对 其 影响 较 大 。 


我 们 已 经 了 解 到 R 中 有 了 两 个 神经 网 络 添加 包 ， 并 在 简单 的 案例 中 使 用 了 它们 。 本 书 将 深入 研究 几 个 实际 的 用 例 。 


深度 学 习 形成 了 具有 许多 隐 含 层 的 高 级 神经 网 络 。 深 度 学 习 是 一 个 广泛 的 课题 ， 是 构建 AI 的 重要 概念 。 它 用 于 各 种 应 用 ， 如 
-图像 识别 
计算 机 视觉 


手写 识别 


以 后 的 章节 会 介绍 天 于 深度 学 习 的 更 多 信息 。 


1.20 RERAMA 


独 经 网 络 构成 了 深度 学 习 的 基础 ， 深 度 学 习 的 应 用 非 钊 广泛 ， 从 语音 识别 到 瘤 症 检测 。 本 节 介 绍 神经 网 络 的 优 缺 点 。 优 点 胜 
于 缺 挟 ， 并 将 神经 网 络 作为 数据 科学 、 机 器 学 习 和 预测 的 首选 建 模 技术 。 


1 .优点 


以 下 是 神经 网 络 的 一 些 优 点 : 


: 神经 网 络 是 灵活 的 ， 可 用 于 回归 和 分 类 问题 。 任 何 可 以 数值 化 的 数据 都 可 以 在 神经 网 络 模型 中 使 用 ， 因 为 神经 网 络 是 具有 


+ 神经 网 络 可 对 具有 大 量 输入 的 非 线 性 数据 很 好 地 建 模 。 例 如 图 像 。 它 在 多 特征 任务 中 很 可 靠 。 它 通过 将 分 类 问题 分 解 成 更 


简单 的 分 层 网 络 进行 实现 。 
. 一 旦 经 过 训练 ， 预 测 会 变 得 相当 快 。 
- 神经 网 络 可 以 使 用 任意 数量 的 输入 和 层 来 训练 神经 网 络 。 


` 神经 网 络 最 适合 具有 更 多 数据 点 的 情况 。 


2 AKA 


让 我 们 来 看 看 神经 网 络 的 一 些 缺 点 : 


. 神经 网 络 是 黑 盒 子 ， 这 意味 着 我 们 不 知道 每 个 独立 变量 对 因 变 量 的 影响 程度 。 


. 使 用 传统 CPU 进行 训练 ， 计 算 成 本 非常 高 昂 ， 并 且 耗 时 。 


- 神经 网 络 依赖 于 训练 数据 。 这 会 导致 过 拟 合 和 泛 化 的 问题 。 该 模式 更 多 地 依赖 于 训练 数据 ， 并 且 可 以 被 调整 成 数据 的 形 


1.21 和 伸 经 网 络 实 现 的 最 佳 实 跤 


以 下 是 一 些 有 助 于 实现 神经 网 络 的 最 佳 实践 : 
有 良好 的 训练 数据 时 ， 和 神经 网 络 能 够 最 好 地 实现 。 
* MLP 中 的 隐 含 层 越 多 ， 预 测 模型 的 准确 性 越 好 。 
. 隐 含 层 中 最 好 有 5 个 节点 。 


: ReLU 和 误差 平方 和 (SSE) 分 别 是 激活 函数 和 误差 检测 的 最 佳 技术 。 


1.22 ”有关 GPU 处 理 的 简要 说 明 


计算 机 处 理 能 力 的 提高 对 于 日 常 问题 中 神经 网 络 的 使 用 是 一 个 巨大 的 推动 。GPU 是 专门 用 于 执行 图 形 操作 (例如 游戏 、3D 
动画 等 ) 的 专用 处 理 器 。 它 们 执行 数学 密集 型 任务 ， 是 CPU 的 附加 功能 。CPU 执 行 计算 机 的 操作 任务 ， 而 GPU 则 用 于 执行 繁重 
的 工作 负载 处 理 。 


独 经 网 络 以 构 需要 很 强 的 数学 计算 能 力 ， 而 GPU 则 是 首选 。 每 个 神经 元 的 权重 和 输入 的 器 量 化 点 阵 乘 积 可 以 通过 GPU 并 行 
计算 .GPU 的 优点 推动 了 神经 网 络 的 友 展 。 深 度 学 习 在 图 像 处 理 、 计 算 机 视觉 、 生 物 信息 学 和 天 气 建 模 等 方面 的 应 用 正在 通过 


GPU 获 益 。 


1.23 小结 


本 章 对 ANN 进 行 了 概述 。 神 经 网 络 的 实现 非 带 简单 ， 但 内 部 结构 相当 复杂 。 我 们 可 以 将 神经 网 络 归纳 为 一 个 通用 的 数学 国 
数 驶 近 器 。 任 何 一 组 产生 输出 的 输入 都 可 以 通过 人 利 经 网 络 构成 一 个 像 黑 盒子 一 样 的 数学 国 数 ， 近 年 来 这 些 应 用 十 分 广泛 。 

本 章 内 容 如 下 : 

` 神经 网 络 是 一 种 机 器 学 习 技 术 ， 是 数据 驱动 的 。 


" 人 工 智 能 、 机 器 学 习 和 神经 网 络 是 使 机 器 像 人 类 一 样 工 作 的 不 同 范例 。 


. 神经 网 络 可 以 用 于 有 监督 和 无 监督 的 机 器 学 习 。 


` 权重 、 偏 差 和 激活 函数 是 神经 网 络 中 的 重要 概念 。 

- 神经 网 络 是 非 线性 和 非 参 数 的 。 

: 神经 网 络 的 预测 速度 非常 快 ， 与 其 他 机 器 学 习 模 型 相 比 是 最 准确 的 。 

- 在 任何 神经 网 络 架 构 中 都 有 输入 层 、 隐 含 层 和 输出 层 。 

- 神经 网 络 以 构建 MLP 为 基础 ， 神 经 网 络 的 基础 知识 包括 权重 、 偏 差 、 激 活水 数 、 前 向 和 后 向 传播 处 理 。 
- 前 向 和 后 向 传播 是 推动 神经 网 络 模 型 的 技术 。 


独 经 网 络 可 以 通过 许多 编程 语言 实现 ， 如 Python、R、MATLAB、C 和 Java 等 。 本 书 的 重点 是 使 用 R 构 建 应 用 程序 。DNN 和 
Al 系统 正在 基于 神经 网 络 深化 。 在 即将 到 来 的 章节 中 ， 我 们 将 深入 研究 不 同类 型 的 神经 网 络 及 其 各 种 应 用 。 


第 2 草 ”神经 网 络 中 的 学 习 过 程 


正如 和 人 类 有 许多 不 同类 型 的 学 习 和 学 习 廊 法 一 样 ， 也 可 以 对 机 器 进行 这 样 的 分 析 。 为 确保 机 器 能 够 从 经 验 中 学 习 ， 根 据 具 体 
的 工作 要 求 定 义 最 佳 可 用 的 方法 是 很 重要 的 。 这 通 单 意味 着 选择 适用 于 当前 案例 的 技术 ， 并 不 时 地 评估 它们 ， 以 确定 是 否 需要 宪 
试 新 的 忒 西 。 


第 1 草 介绍 了 神经 网 络 的 基础 知识 ， 以 及 使 用 R 的 两 个 简单 实现 。 在 本 草 中 ， 我 们 将 处 理学 习 过 程 ， 即 如 何 训练 、 测 试 和 部 
署 神经 网 络 机 器 学 习 模 型 。 训 练 阶段 用 于 学 习 ， 以 拟 合 神经 网 络 的 参数 。 测 试 阶段 用 于 评估 完全 训练 过 的 神经 网 络 的 性 能 。 最 
后 ， 在 部 署 阶段 ， 通 过 向 模型 传递 实际 数据 以 得 到 预测 结果 。 


训练、 测试 和 部 署 模型 
` 评估 指标 一 一 误差 测量 和 微调 ; 度量 模型 的 准确 性 
. 使 用 神经 网 络 的 有 监督 学 习 模 型 

- 使 用 神经 网 络 的 无 监督 学 习 模 型 

. 反 向 传播 


本 章 的 最 后 将 介绍 R 学 习 过 程 的 基本 概念 以 及 如 何 企 R 环 境 中 实现 。 本 章 还 涉及 实现 神经 网 络 的 不 同 算法 ， 如 何 训练 、 测 试 
和 部 署 一 个 模型 ， 以 及 如 何 执行 正确 的 评估 程序 。 


2.1 机 器 学 习 


机 器 学 习 是 什么 意思 ? 对 它 进 行 定义 相当 困难 ， 为 此 ， 我 们 需要 大 量 的 科学 家 来 帮忙 。 这 里 引用 一 位 人 工 智 能 先驱 的 话 : 
“使 计算 机 能 够 学 习 而 不 被 明确 编程 的 学 习 领 域 。” 


Arthur Samuel 


机 器 学 习 是 关于 使 用 数据 训练 模型 或 算法 ， 然 后 使 用 模型 来 预测 任何 新 的 数据 。 例 如 ， 一 个 小 孩 被 教导 如 何 从 肥 行 阶段 开始 
学 习 行 走 。 最 初 ， 幼 儿 的 父母 握 着 幼儿 的 手 来 帮助 他 ， 并 通过 所 给 的 数据 来 教 他 。 在 这 些 程序 的 基础 上 ， 如 果 幼 儿 的 路 径 上 出 现 
障碍 物 ， 或 者 在 某 个 地 方 有 转 雪 ， 那 么 经 过 训练 ， 幼 儿 可 以 目 己 前 进 。 用 于 训练 的 数据 是 训练 数据 ， 接 受 者 在 正式 训练 之 后 仍 继 


机 器 也 可 以 像 幼 儿 一 样 教授 基于 训练 的 任务 。 首 先 ， 我们 提供 足够 的 数据 ， 告 诉 机 器 在 什么 情况 下 需要 做 什么 。 训 练 结 束 
后 ， 机 器 可 以 目 动 执行 ， 也 可 以 学 习 目 我 调整 。 这 种 机 器 的 训练 称 为 机 器 学 习 。 


机 器 学 习 和 编程 的 主要 区 别 在 于 机 器 学 习 中 不 涉及 写 代 码 / 编 程 ， 而 编程 则 是 让 机 器 执行 一 套 指令 。 在 机 器 学 习 中 ， 数 据 是 
唯一 的 输入 ， 并 且 模 型 以 已 经 决定 使 用 的 算法 为 基础 。 


要 使 用 的 算法 以 数据 的 各 种 因素 为 基础 : 特征 (ESE) 、 因 变量 的 类 型 、 模 型 的 准确 性 以 及 模型 的 训练 及 预测 的 速度 。 


基于 机 器 学 习 数 据 的 自 变 量 ， 用 三 种 不 同 的 方式 来 训练 一 个 模型 : 


强化 学 习 


下 图 显示 了 训练 机 器 学 习 模 型 的 不 同 算法 。 


没有 目标 变量 ， 
算法 需要 从 数据 中 
找到 模式 或 者 规律 


有 一 个 基于 此 来 
设 定数 学 方程 式 的 
目标 值 


强化 机 各 学习 


FIA E BUR FF 
日 算法 基于 环境 进行 学 习 
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2.1.1 有 监督 学 习 


有 监督 学 习 是 一 种 学 习 方法 ， 其 中 一 部 分 训练 数据 像 教师 一 样 来 确定 模型 的 算法 。 该 机 器 被 教导 要 从 目标 数据 中 学 到 什么 。 
目标 数据 、 因 变量 或 响应 变量 是 自 变 量 集 体 行动 的 结果 。 网 络 训练 是 利用 目标 数据 及 其 与 输入 数据 间 的 行为 模式 来 完成 的 。 目 标 
标签 是 预 完 已 知 的， 并 且 数 据 被 馈送 到 算法 以 导出 模型 。 


独 经 网 络 的 大 部 分 用 法 是 通过 有 监督 学 习 完成 的 。 权 重 和 侦 郑 根据 输出 值 进行 调整 。 输 出 可 以 是 分 类 变量 (如 真 / 假 或 
0/1/2) 或 连续 变量 (如 1、2、3 等 ) 。 模 型 依赖 于 输出 变量 的 类 型 ， 在 神经 网 络 的 情况 下 ， 输 出 层 是 建立 在 目标 变量 的 类 型 上 
的 。 


Qz: 对 于 神经 网 络 ， 所 有 的 自 变 量 和 因 变 量 都 需要 是 数值 化 的 ， 因 为 神经 网 络 是 基于 数学 模型 的 。 数 据 科 学 家 需要 将 
数据 转换 为 数字 才能 将 其 输入 到 模型 中 。 


有 监督 学 习 如 下 图 所 示 。 


了 预测 输入 数据 


用 目标 变量 机 器 学 习 算法 用 于 预测 的 


训练 效 据 BL aie es Ag 
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21.2 无 监督 学 习 


在 无 监督 学 习 (或 目 组 织 ) 中 ,不 需要 目标 变量 ， 输 出 层 被 训练 成 将 输入 数据 组 织 成 男 一 组 数据 。 分 析 输 入 数据 并 在 其 中 找 
到 模式 以 导出 输出 ， 如 下 图 所 示 。 由 于 没有 目标 变量 做 老师 ， 这 种 类 型 的 学 习 称 为 无 监督 学 习 。 


新 输入 数据 


不 用 目标 变量 —— ML 1 HE -— 用 于 分 组 或 聚 数据 组 织 成 
训练 数据 MAREI 3H 类 的 机 器 学 习 不 同 的 簇 或 组 


新 输入 被 分 入 


一 个 簇 


无 监督 学 习 可 用 的 不 同 技术 如 下 : 
“RE (均值 ， 分 层 ) 


. 协同 技术 


自 组 织 映射 (Self Organizing Map, SOM) /Kohonen 网 络 


总 而 言 乙 ， 下 图 摘 述 了 两 种 主要 类 型 的 机 器 学 习 。 


对 于 神经 网 络 ， 我 们 有 两 种 可 用 的 类 型 一 一 有 监督 学 习 和 无 监督 学 习 ， 分 别 对 应 R 中 可 用 的 不 同方 式 。 


回归 
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2.1.3 ”强化 学 习 


强化 学 习 是 机 器 学 习 的 一 种 类 型 ， 其 中 有 一 种 持续 反馈， 可 帮助 模型 适应 环境 。 每 一 步 都 有 一 个 绩效 评估 来 改进 模型 。 对 于 
独 经 网 络 ， 有 一 种 称 为 Q 学 习 (Q-learning) 的 特殊 类 型 ， 结 合 神经 元 来 实现 反 向 传播 反馈 机 制 中 的 强化 学 习 。 这 方面 的 细 书 超 
出 了 本 书 的 沁 围 。 


以 下 是 运 今 为 止 所 介绍 的 三 种 学 习 类 型 。 


教师 / 目标 


2.2 ij 


练 和 测试 模型 


对 模型 进行 训练 和 测试 形成 了 在 预测 分 析 中 进一步 使 用 模型 进行 预测 的 基础 。 给 定 一 个 包含 预测 变量 和 喘 应 变量 的 100 行 数 
据 的 数据 集 ， 将 数据 集 分 成 一 个 合适 的 比例 (比如 襄 70:30) ， 并 分 配 70 行 用 于 训练 ，30 行 用 于 测试 。 行 样本 随机 选择 ， 以 减少 
UE 


一 旦 训练 数据 可 用 ， 数 据 被 馈送 到 神经 网 络 以 获得 大 范围 的 通用 了 涵 数 。 训 练 数 据 决 定 了 要 用 来 从 输入 中 得 到 输出 的 权重 、 偏 
考 和 激活 消 数 。 直 到 现在 ,我 们 也 不 能 说 权重 对 目标 变量 有 正面 或 负面 的 影响 。 但 现在 我 们 已 经 能 够 看 到 从 黑匣子 里 散 友 出 的 一 


些 光芒 。 例 如 ， 通 过 绘制 经 过 训练 的 神经 网 络 ， 可 以 友 现 训练 的 突 触 权重 和 关于 训练 过 程 的 基本 信息 。 


一 旦 达到 足够 的 收 人 请， 模型 束 被 存储 在 内 存 中 ， 下 一 步 束 是 测试 模型 。 我 们 传递 30 行 数据 来 检查 实际 输出 是 否 与 模型 的 预 
测 输 出 匹配 。 评 估 是 用 于 获取 可 以 验证 模型 的 各 种 指标 。 如 果 对 准确 性 要 求 较 高 ， 那 么 需要 重新 建立 模型 ， 将 训练 数据 和 其 他 参 
数 传递 给 神经 网 络 函数 。 本 章 后 面 会 介绍 更 多 天 于 评估 指标 的 内 容 。 


在 训练 和 测试 之 后 ， 这 个 模型 被 部 署 ， 实 际 数据 通过 模型 传递 以 得 到 预测 结果 。 例 如 ， 可 以 基于 各 种 输入 参数 来 确定 欺诈 交 
易 或 住房 贷款 资格 审理 。 


训练 、 测 试 和 部 署 如 下 图 所 示 。 
训练 阶段 


已 知 输入 数据 已 知 目标 数据 神经 网 络 模型 


测试 阶段 


| » YEE Tif PE E 
神经 网 络 模型 ， - 
mure] 较 预 测 输 出 与 已 知 


目标 


已 知 输 入 效 据 


Hil er BT Be 


APT F A BD 神经 网 络 模型 


mm» 新 输出 数据 


到 目前 为 止 , 我 们 已 经 介绍 了 可 用 的 各 种 算法 ， 现 在 是 时 候 致 力 于 研究 每 个 分 析 中 的 基本 数据 。 


2.3 ”数据 循环 


数据 是 模型 建立 和 学 习 过 程 的 关键 组 成 部 分 。 数 据 需 要 收集 、 清 理 、 转 换 ， 然 后 送 入 模型 进行 学 习 。 数 据 生命 周期 如 下 图 所 


中 | 
7 
o 


了 解 业务 需求 


per TOU y d 准备 数据 


训练 和 测试 在 此 


规划 神经 
网 络 模型 


构建 神经 
网 络 模型 


建 模 的 关键 要 求 之 一 是 具有 良好 和 平衡 的 数据 。 这 有 助 于 建立 更 高 准确 性 的 模型 和 更 好 的 可 用 算法 用 法 。 数 据 科 学 家 主要 关 
注 在 构建 模型 之 前 清理 数据 。 
在 部 署 模 型 之 前 ， 先 对 它 进 行 训练 和 测试 。 对 于 测试 ， 结 果 将 作为 评 信 指标 ， 这 有 助 于 我 们 决定 是 使 用 某 个 特定 模型 还 是 对 


zd 
模型 进行 改变 。 


接 下 来 会 介绍 评估 指标 。 


24 评估 指标 


评估 模型 涉及 ， 在 测试 阶段 检查 预测 值 是 否 等 于 实际 值 。 用 于 检查 模型 的 指标 有 很 多 ， 它 们 依赖 于 目标 变量 的 状态 。 


对 于 一 个 二 值 分 类 问题 ， 预 测 目 标 变量 和 实际 目标 变量 可 以 是 以 下 四 个 状态 中 的 任意 一 个 。 


预测 值 实际 值 


预测 值 =TRUE 实际 值 =TRUE 
预测 值 =TRUE 实际 值 =FALSE 
预测 值 =FALSE 实际 值 =TRUE 
预测 值 =FALSE 实际 值 =FALSE 


当 得 到 的 预测 值 和 实际 值 相 同时 ， 认 为 预测 是 准确 的 。 如 果 所 有 的 预测 值 和 实际 值 都 是 一 致 的 (都 是 TRUE 或 者 FALSE) , 
那么 模型 是 100% 准 确 的 ， 但 是 事实 并 非 如 此 。 


对 于 一 个 模型 ， 我 们 定义 了 以 下 术语 和 指标 : 
- 真 阳 性 (TRUE Positives, TP) : 所 有 的 预测 值 和 实际 值 都 为 TRUE 的 案例 (良好 的 准确 度 ) 。 
真 阴性 (TRUE Negative, TN) : 所 有 预测 值 和 实际 值 都 为 False 的 案例 (良好 的 准确 度 ) o 


- 假 阳 性 (False Positive, FP) : 预测 值 为 阳性 (TRUE) ,但 是 实际 值 是 阴性 的 案例 ， 就 像 一 个 错误 的 人 警报， 或 者 一 个 FP 
错误 。 例 如 ， 一 个 男性 通过 测 孕 试纸 预测 为 怀孕 。 所 有 预测 值 为 TRUEB、 实 际 值 为 FALSE ， 就 是 假 阳 性 案例 。 这 也 称 为 第 一 类 错 


IRo 

: 假 阴 性 (False Negative, FN) : 预测 值 为 FALSE， 但 实际 值 为 TRUE， 这 样 的 案例 称 为 FN。 例 如 ， 一 个 怀孕 的 女性 通过 测 
孕 试 纸 预测 为 没有 怀孕 ， 这 是 一 个 EN 案例 。 所 有 预测 值 为 FALSE、 实 际 值 为 TRUE ， 就 是 假 阴 性 人 案例。 这 也 称 为 第 错误 。 
ibe a FEB 


当 分 类 的 值 绘制 在 一 个 nxn 矩 阵 (二 值 分 类 时 为 2x2 和 矩阵 ) 中 时 ， 这 个 矩阵 称 为 混淆 矩阵 (confusion matrix) 。 所 有 的 评 
估 指 标 可 以 从 混淆 矩阵 中 推导 得 到 。 


预测 值 预测 值 
实际 值 TRUE FALSE 


TRUE LIP FN 
FALSE FP TN 


现在 ， 让 我 们 详细 地 看 一 下 评估 指标 。 


1. 真 阳性 


真 阳性 或 灵敏 度 (sensitivity) 、 召 回 率 (recall) 、 命 中 率 (hit rate) 是 衡量 所 有 被 预测 为 阳性 的 案例 中 真 阳性 的 比例 : 


理想 情况 下 ， 该 值 越 接近 于 1， 模 型 性 能 越 好 。 


2. 真 阴性 


真 阴性 或 特异 性 是 衡量 所 有 被 预测 为 阴性 的 案例 中 真 阴 性 的 比例 : 


TPR = lt n, 


N IN+FP 


这 个 比率 越 接近 于 0， 模 型 越 准确 。 
3. 准 确 度 
准确 度 (accuracy) 是 用 来 度量 模型 有 多 好 的 指标 。 如 果 模 型 能 够 表现 得 很 好 ， 这 个 值 接 近 于 1。 


十 + TN 
RCo 
P+N TP+TN+FP+EN 


4. 精 确 度 和 召回 率 


精确 度 (precision) 和 召回 率 分 别 是 TP 与 (TP+FP) 和 TP 与 (TP+FN) 的 比值 。 这 些 比 值 决定 了 预测 值 与 实际 值 的 比较 
结果 。 


精确 度 被 定义 为 有 多 少 选 择 项 是 相关 的 ， 即 多 少 预 测 值 被 正确 预测 为 TRUE。 


公式 如 下 : 


如 果 精 确 度 接近 于 1， 那 么 预测 更 精确 。 


另 一 方面 ， 召 回 率 告诉 我 们 选择 了 多 少 相 关 项 ， 数 学 上 的 表达 式 是 : 


选择 了 多 少 相 天 项 


5 分 


Fi 记分 或 F1 记 分 ， 是 另 一 种 准确 度 的 度量 万 法 。 从 技术 上 来 说 ， 它 是 精确 度 和 召回 率 的 调和 平均 值 : 


— Precision x recall 
F-2x—— — 
Precision + recall 


6. 受 试 者 工作 特征 


一 条 受 试 者 工作 特征 (Receiver Operating Characteristic, ROC) 曲线 是 一 种 图 形 可 视 化 方法 ， 说 明了 一 个 二 值 分 类 系统 
的 预测 能 力 。 ROCKC 曲 线 通过 在 各 种 阔 值 设置 下 绘制 真 阳 性 比例 (True Positive Rate, TPR) - 假 阳 性 比率 (False Positive 
Rate, FPR) 图 。 这 给 出 了 灵敏 度 与 (1.0- 特 异性 ) 的 关系 。ROC 曲 线 通常 如 下 所 示 。 


优秀 的 ROC 曲线 


咕 机 猜测 的 性 能 等 级 


假 阳 性 
( 1.0- 特异 性 ) 


在 获得 这 些 必要 的 技能 后 ， 我 们 准备 详细 分 析 用 于 构建 神经 网 络 的 算法 。 


2.5 ”学 习 神 经 网 络 


正如 在 第 1 章 中 看 到 的 ， 神 经 网 络 是 一 种 机 器 学 习 算 法 ， 能 够 从 数据 中 学 习 ， 并 使 用 建立 的 模型 给 出 预测 结果 。 这 是 一 种 通 
用 的 消 数 近似 器 ， 即 任何 输入 和 输出 数据 都 可 以 被 近似 成 一 个 数学 消 数 。 


前 向 传播 给 出 一 个 初始 的 数学 国 数 ， 通 过 选择 随机 权重 ， 基 于 输入 值 达 到 输出 值 。 实 际 值 和 预测 值 之 间 的 差异 称 为 误差 。 前 
馈 神 经 网 络 (feed-forward neural network) 中 的 学 习 过 程 实际 上 发 生 在 反 向 传播 阶段 。 模 型 通过 减少 每 次 迭代 中 的 误 基 .来 和 
调 权 重 。 梯 度 下 降 被 用 在 反 向 传播 阶段 。 


这 一 节 会 详细 介绍 反 向 传播 ， 因 为 它 是 神经 网 络 的 一 个 重要 的 机 器 学 习 主 题 。 


2.6 RIER 


第 1 章 已 经 详细 介绍 了 前 向 传播 ， 以 及 一 些 关 于 使 用 梯度 下 降 的 反 向 传播 的 内 容 。 反 向 传播 是 理解 神经 网 络 的 重要 概念 之 
一 ， 它 依靠 微 积 分 更 新 每 个 层 的 权重 和 偏差 。 误 差 的 反 向 传播 类 似 于 从 错误 中 学 习 (learning from mistakes) 。 我 们 在 每 次 迭 
代 中 自行 改正 错误 GRE) ， 直 到 达到 一 个 收敛 点 (convergence) 。 反 向 传播 的 目的 是 修正 每 个 层 的 权重 ， 并 最 小 化 输出 层 
的 整体 误差 。 


独 经 网 络 学 习 严 重 依赖 前 向 神经 网 络 中 的 反 向 传播 。 前 向 传播 和 误差 修正 的 弟 用 步骤 如 下 所 示 : 
1) 通过 分 配 隐 含 层 中 每 个 昼 经 元 的 随机 权重 和 含 差 ， 初 始 化 神经 网 络 前 向 传播 。 

2) 得 到 每 个 神经 元 sum(weightxinput)+bias 的 加 和 。 

3) 在 每 个 神经 元 应 用 激活 函数 (sigmoid) 。 

4) 得 到 输出 ， 并 将 其 传递 到 下 一 层 的 神经 元 。 

5) 如 果 该 层 是 输出 层 ， 在 每 个 输出 层 神 经 元 应 用 权重 并 得 到 sum(weight*input)+bias 的 加 和 |。 
6) 再 次 ， 在 输出 层 神 经 元 应 用 激活 函数 。 


7) 这 在 输出 层 对 一 个 前 同 传递 形成 了 神经 网 络 的 输出 。 


8) 现在 ， 基 于 训练 集 ， 通 过 实际 输出 减 去 激活 函数 的 输出 值 识 别 每 个 输出 神经 元 的 误差 。 


其 中 ，E 是 误差 平方 ， 旭 一 个 训练 样本 的 目标 输出 ，y 是 一 个 输出 神经 元 的 实际 输出 ，1/2 项 是 在 误差 E 接 着 进行 微分 时 ， 用 
于 消除 指数 的 。 
10) 梯度 下 降 撤 术 需 要 根据 神经 网 络 的 权重 对 误差 E 进 行 仿 导 计算 。 根 据 权 重 wi 对 误差 计 算 仿 导 时 ， 使 用 以 下 的 微分 链 了 式 法 


则 (chain rule) : 


OE _ OE Oo, Onet 
ôw, ôo, Onet . Ow, 


导数 被 定义 为 一 个 值 的 变化 率 ， 梯 度 下 降 使 用 导数 (或 斜率 ) 来 最 小 化 误 兰 ， 并 得 到 权重 的 正确 集合 


11) 第 一 项 是 误差 E 对 特定 神经 元 j 的 输出 计算 的 偏 导 数 ，o0j=y: 


Qo Oy v1 OMM 


J 


12) 链 了 式 法 则 中 的 第 二 项 是 神经 元 oj 对 它 的 输入 值 求 俩 导 ， 即 对 激活 函数 (sigmoid) ates: 


Oo, A 
Bret; — n, o(net , )= p(net, (1 g(net)) 


13) 链 式 法 则 的 第 三 项 是 of 
onet j Q ^n ô 
OW, OW, k=l | OW. 


14) 合并 第 11 ~ 132, (S3: 


\ 
/ 
-H 


(o, -t,)o,(1-0;) , 如 果 j 是 一 个 输出 神经 元 
5 9E co _ 
' €0, net, Dam, p (1-0, ) , 如 果 了 是 一 个 内 神经 元 


15) 每 个 神经 元 (任意 层 ) 的 权重 wi 根据 偏 导 数 和 学 习 率 进行 更 新 。 
这 些 步 又 不 断 重复 ， 和 直到 得 到 一 个 误 磊 很 小 的 收敛 值 ， 或 者 达到 一 个 指定 的 计算 次 数 。 
所 有 的 步骤 都 可 在 R 添 加 包 中 实现 。 学 习 率 和 其 他 各 种 参数 已 类 。 


反 向 传播 说 明 如 下 所 示 。 


ok eh Jas 


误差 反射 传播 


正如 生活 中 的 其 他 事情 一 样 ， 即 使 是 算法 也 有 进一步 的 改进 空间 。 接 下 来 ， 将 看 到 如 何 改进 算法 。 


2.7 ” 伸 经 网 络 学 习 算 法 的 优化 


在 仲 经 网 络 中 ， 进 行 学 习 的 过 程 称 为 训练 算 ; 友 (training algorithm) 。 学 习 算 法 是 指 机 器 学 习 算法 选择 何 种 模型 作为 最 优 
优化 模型 。 目 的 是 最 小 化 损失 函数 (loss function) ， 并 提供 更 高 的 准确 度 。 在 这 里 ， 我 们 将 介绍 一 些 除 梯 度 下 降 外 的 优化 技 
AR. 


粒子 群 优化 (Particle Swarm Optimization, PSO) 方法 的 灵感 来 源 于 对 乌 群 企 寻 找 食 物 或 生存 过 程 中 的 运动 的 社会 行为 


和 集体 行为 的 观察 。 当 知道 粒子 的 位 置 和 速 大 时 ，PSO 方 法 的 目标 是 在 一 个 由 天 于 位 置 和 速度 的 数学 方程 控制 的 空间 中 寻找 一 个 
解 集 。 它 从 生物 有 机 体 的 行为 中 得 到 了 集体 智慧 的 局 友 。 


模拟 退火 (simulated annealing) 是 一 种 获得 一 个 成 本 函数 近似 全 局 最 优 解 的 概率 演算 法 。 它 通过 模拟 的 万 法 在 一 个 巨大 
的 空间 中 搜索 一 个 解 。 
Xt (evolutionary) 方法 源 于 生物 学 中 的 进化 过 程 ， 进 化 可 以 是 生殖 、 突 变 、 选 择 和 重组 。 适 应 度 遂 数 被 用 于 决定 模型 的 


性 能 ， 基 于 这 个 阔 数 ， 选 择 最 终 的 模型 。 


最 大 期 望 算法 (Expectation Maximization, EM) 方法 是 一 种 统计 学 习 方 法 ， 使 用 一 个 迭代 的 方法 寻找 最 大 似 然 估计 或 最 


大 后 验 估 计 ， 从 而 最 小 化 误差 。 


28 伸 经 网 络 中 的 有 是 冬 学 习 


正如 之 前 提 到 的 ， 有 监督 学 习 是 一 种 学 习 方 法 ， 其 中 部 分 


个 回归 预测 建 模 问题 的 例子 ， 将 帮助 读者 理解 如 何 使 用 昼 经 网 络 解决 问题 。 


2.8.1 ”波士顿 数据 集 


算法 的 “教师 ”以 决定 模型 。 在 接 下 来 的 部 分 ， 提 出 了 一 


波士顿 数据 集 (Boston dataset) 描述 了 波士顿 郊区 住宅 的 13 个 数字 属性 ， 并 关注 于 对 这 些 房屋 价格 (以 数 干 美元 计 ) X 
行 建 模 。 这 是 一 个 回归 预测 建 模 问 题 。 输 入 属性 包括 犯罪 率 、 非 零售 商业 用 地 所 占 比例 、 化 学 物 浓度 等 。 下 面 询 出 了 更 多 的 变 


" 


` 样本 个 数 : 506. 


. 属性 个 数 : 13 个 连续 属性 (包括 class 属 性 MEDV) ， 以 及 一 个 二 值 属性 。 


每 个 属性 的 详细 摘 述 如 下 : 


1) crim: 城镇 人 均 犯 罪 率 。 


2) zn: 占 地 面积 超过 25000 平 方 英 尺 [1] 的 住宅 用 地 比例 。 


3) indus: 城镇 中 非 零 售 商 业 用 地 所 占 比 例 。 


—Á 


4) chas: 是 否 经 过 Charles 河 的 虚拟 变量 (如 果 是 地 域 界 河 ， 则 为 1， 


5) nox: 氮 氧 化 物 浓度 (每 干 万 分 之 一 ) 。 


6) rm: 平均 每 个 住宅 的 房间 数量 


~~ 
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age: 在 1940 年 之 前 建造 的 业主 目 住 房屋 的 比例 。 


8) dis: 距离 波士顿 ?个 残 业 中 心 的 加 权 距 离 。 


~ 


9) rad: 距离 高 速 公路 的 便利 指数 。 

10) tax: 每 10000 美 元 的 不 动产 税率 。 

11) ptratio: 城镇 里 学 生 教师 的 比例 。 

12) black: 城镇 中 黑人 的 比例 ，1000 (Bk-0.63) ^. 
13) Istat: 地 区 中 属于 低 收入 阶层 的 房东 的 百分比 。 


14) medv: 业主 目 住 房屋 价格 的 中 位 数 (100070) 。 


AM, 730). 


其 中 ，medv 是 响应 变量 ， 其 他 13 个 变量 是 可 能 的 预测 变量 。 这 个 案例 的 目的 是 拟 合 一 个 回归 模型 ,以 最 好 地 解释 medv 的 
变化 。 


前 13 列 和 medv 响 应 变量 人 存在 一 个 相关 性 。 可 以 基于 13 个 输入 列 预测 medv 的 值 。 
Os : 这 个 数据 集 已 经 在 R 添 加 包 MASS 中 提供 ， 正 如 下 面 将 看 到 的 ， 我 们 不 需要 担心 获取 数据 的 问题 。 
2.8.2 ”对 波士顿 数据 集 进行 神经 网 络 回 归 


在 这 一 部 分 ， 我 们 将 对 Boston 数 据 集 建 立 一 个 神经 网 络 回归 模型 。 测 试 集 对 变量 medv 进 行 预测 。 训 练 集 与 测试 集 的 比例 是 
70 : 30。 用 函数 neuralnet 对 数据 建立 一 个 神经 网 络 模型 : 


Ht Ht HH HHH ERE FE HE HH HE HH FE HF FE FE FE FE FE EE FE FE FE HE FE HE EE FE FE HEH FE a HE HE HE HEH aE ERE ERE E HEH E E EF HE HH ERE EE HE 
###Chapter 2 - Introduction to Neural Networks - using R ############ 
###Simple R program to build, train, test regression neural networks# 
THEHEEEEREHEREREREREHE EHE EE EE EE EE £Elename: Boston.rdibibEHEE S HHHH ttt ttt HHHH HHHH FH 
THE ETE HE HE E ERE ERE HH HE ERE EE FE FE FE FE E EE EE ERE HE FE FE EE EE ERES AERE EE EE EH HE ERE ERE AERE HH HH ERE IEEE ERE ETE HE 


library ("neuralnet") 
library (MASS) 


set.seed(1) 
data - Boston 


max data «- apply(data, 2, max) 
min data «- apply(data, 2, min) 
data scaled «- scale(data,center - min data, scale - max data - min data) 


index - sample(1:nrow(data),round(0.70*nrow(data))) 
train data <- as.data.frame(data scaled[index,]) 
test data «- as.data.frame(data scaled[-index,]) 


n = names (data) 

f = as.formula(paste("medv ~", paste(n[!n $in$ "medv"], collapse = " + "))) 
net data = neuralnet(f,data-train data,hidden-10,1inear.output-T) 

plot (net_data) 


predict net test «- compute(net data,test data[,1:13]) 


predict net test start <- predict net test$net.result* (max (data$medv)- 
min (dataSmedv) ) *min (dataSmedv) 

test start <- as.data.frame((test data$medv)* (max (data$medv)- 

min (dataSmedv) ) *min (dataSmedv) ) 

MSE.net data «- sum((test start - 

predict net test start)^2)/nrow(test start) 


Regression Model «- lm(medv-., data-data) 

summary (Regression Model) 

test «- data[-index,] 

predict lm «- predict(Regression Model,test) 

MSE.lm <- sum((predict lm - test$medv)^2)/nrow(test) 


MSE.net data 


MSE .lm 
3 EE EE E EE ERE IEEE TEE EE EE E EE EE ERE EE ERE E ERE EE ERE ETERE EE EE ETERE EE ERE ERE RRHH HHRHH HHH ERE EE EE E HH H 


不 用 担心 ， 现 在 将 逐 行 详细 介绍 整 段 代码 。 


library ("neuralnet") 
library (MASS) 


代码 的 前 两 行 很 简单 ， 它 们 加 载 了 之 后 计算 需要 用 到 的 添加 包 。 特 别 地 ， 添 加 包 neuralnet 将 帮助 我 们 建立 和 训练 神经 网 
络 ， 而 添加 包 MASS 将 帮助 我 们 加 载 之 前 详细 介绍 的 波士顿 数据 集 。 


Disk. 记 住 ， 想 要 安装 初始 的 R 中 不 存在 的 添加 包 ， 必 须 使 用 函数 instalLpackage。 这 是 安装 添加 包 的 主要 函数 。 它 将 目标 


添加 包 的 名 字 作 为 向 量 参 数 ， 从 仓库 中 下 载 添加 包 并 进行 安装 。 


例如 ， 在 这 里 的 案例 中 ， 想 要 安 闭 添加 包 neuralnet， 则 应 该 编写 如 下 代码 : 


install.packages ('neuralnet') 


最 后 ， 需 要 注意 的 是 ， 这 个 函数 只 需要 使 用 一 次 ， 不 必 每 次 都 运行 这 行 代码 。 加 载 添加 包 需 要 通过 以 下 代码 完成 ， 并 且 必 须 


library (neuralnet) 


函数 set.seed 设 置 了 R 语 言 随机 数 生 成 器 的 种 子 ， 这 对 于 生成 需要 重 现 的 模拟 或 随机 对 象 很 有 用 : 


set .seed (1) 


如 果 你 想 要 得 到 一 个 可 重 现 的 随机 结果 ， 那 么 必须 每 次 都 使 用 这 个 函数 。 在 这 个 案例 中 ， 随 机 数 都 是 一 样 的， 无 论 运行 多 少 
行 代码 ， 它 们 都 将 是 一 样 的 。 


下 面 的 代码 加 载 了 波士顿 数据 集 ， 正 如 预期 的 ， 它 包含 于 添加 包 MASS 中 ， 我 们 将 它 保 存 于 一 个 给 定 的 数据 框 : 


data = Boston 


使 用 函数 str， 观 察 任 意 一 个 R 对 象 的 简单 架构 。 在 我 们 的 案例 中 ， 使 用 str(data)， 将 获得 如 下 结果 : 


> str(data) 

'data.frame': 506 obs. of 14 variables: 

erim s num 0.005632 0.02731 0.02729 0.03237 0.06905 

mc sumus 0 0 oO LL 412.9 22.5 

indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 I.BT F.87 

chas : int 0000000000 

nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 


Ur Ur X X XY 


rm s num 6.906 6.492 7:18 7 7.5 

age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 

dis : num 4.09 4.97 4.97 6.06 6.06 

rAd ¢ 206 l 2 2 3.32 252 5.5 5 

tax : num 296 242 242 222 222 222 311 311 311 311 

ptratió: nun L553 17:8 LI.8 198.7 18,7 18:7 15.2 19.2 19.2 13 
black : num 397 397 393 395 397 

lstat : num 4.98 9.14 4.03 2.94 5.33 

medv : num 24 21.6 34.7 33.4 36.2 26.7 22.9 27.1 16.5 18.9 


Ur Ur Ur Ur X xd 


对 于 给 定 的 对 象 ， 获 得 的 结果 如 下 图 所 示 。 
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继续 解析 代码 : 
max data «- apply(data, 2, max) 


min data <- apply(data, 2, min) 
data scaled «- scale(data,center - min data, scale - max data - min data) 


我 们 需要 这 段 代 码 标 准 化 数据 。 


Ge. 记 住 ， 在 训练 神经 网 络 模型 前 ， 对 数据 进行 标准 化 是 一 个 好 的 操作 。 通 过 标准 化 ， 数 数据 的 单位 被 消除 了 ， 这 将 允 
许 你 从 不 同 的 角度 比较 数据 。 


在 建立 一 个 神经 网 络 时 ， 这 是 一 个 很 重要 的 操作 ， 因 为 它 避 免 了 不 必要 的 结果 或 非常 困难 的 训练 过 程 ， 即 算法 收敛 问题 。 你 
可 以 选择 不 同 的 方法 进行 数据 标准 化 (z 标 准 化 (z-normalization) 、 最 小 -最 大 标准 化 (min-max scale) 等 ) 。 在 这 个 案例 
中 ， 将 使 用 最 小 -最 大 标准 化 法 (通常 称 为 特征 缩放 (feature scaling) ) 使 所 有 标准 化 后 的 数据 落 在 [0,1] 之 间 。 获 得 这 样 结果 


的 公式 如 下 : 


scaled 


| 
= 
= 


X ae XX 


max min 


EGER — DiI MEA, W ARR RAMENA. ATA, fsEHBEXapply. ARAL 
EAA AR RAN AZ TU BRS A — 1 SURBOBEERUSI—EEERUAZSAR. MR RARASAN. 


max data «- apply(data, 2, max) 


国 数 apply 的 第 一 个 参数 指定 了 函数 应 用 的 数据 集 ， 在 我 们 的 案例 中 ， 数 据 集 的 名 称 为 data。 第 二 个 参数 必须 给 出 该 将 应 用 
函数 的 向 量 在 数据 集中 的 下 标 。 在 我 们 的 案例 中 ，1 代 表 行 ，2 代 表 列 。 第 三 个 参数 必须 包含 将 要 应 用 的 函数 ， 在 我 们 的 案例 
中 ， 为 为数 max。 


为 了 标准 化 数据 ， 使 用 六 数 scale， 这 是 一 个 通用 冰 数 ， 黑 认 方 法 是 对 一 个 数值 矩阵 的 列 进行 中 心 化 和 /或 缩放 。 


index = sample(1:nrow(data) , round(0.70*nrow(data) ) ) 
train data <- as.data. frame (data_scaled[index, ] ) 
test data «- as.data.frame(data scaled[-index,]) 


(GHB HT RE—NEM, T33590185823 7370:30, BU 7O%HYSHEIS VIRES IAS, FIFRAVZO% SHE AIT XS RES NARI 
测试 。 在 第 二 行 和 第 三 行 ， 名 为 data 的 数据 框 中 的 数据 被 分 为 两 个 新 的 数据 框 ， 称 为 train_data 和 和 test_data。 


= names (data) 

f = as.formula(paste("medv ~", paste(n[!n $in$ "medv"], collapse = " + "))) 
net data = neuralnet (f,data=train_data, hidden=10, linear.output=T) 

plot (net_data) 


J 
| 


目前 为 止 的 所有 步骤 只 是 用 于 准备 数据 。 现 在 是 时 候 建立 神经 网 络 了 。 为 了 实现 这 一 点 ， 首 先 使 用 为 数 names 获 取 所 有 的 
变量 名 。 这 个 函数 将 获取 或 设置 一 个 对 象 的 名 字 。 


下 一 步 ， 建 立 将 要 用 来 构建 神经 网 络 的 formula， 然 后 使 用 neuralnet 函 数 建立 和 训练 神经 网 络 。 在 这 个 案例 中 ， 我 们 将 生 
成 一 个 神经 网 络 ， 其 中 只 包含 一 个 具有 10 个 节点 的 隐 合 层 。 最 后 ， 绘 制 神经 网 络 ， 如 下 图 所 示 。 
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ME, 我 们 有 了 人 神经 网 络 ， 接 下 来 要 做 什么 呢 ? 当 然 ， 将 用 它 来 做 一 些 了 预测 ， 可 使 用 之 前 设置 的 30% 数 据 集 来 实现 : 


predict net test «- compute(net data,test data[,1:13]) 


在 我 们 的 案例 中 ， 将 函数 应 用 于 数据 集 test_ data， 仅 使 用 代表 神经 网 络 数值 变量 的 前 13 列 : 


predict net test start <- predict net test$net.result* (max (data$medv) -— 
min (data$medv) ) +min (dataS$medv) 

test start <- as.data.frame( (test data$medv)* (max (data$medv) - 

min (dataSmedv) ) +min (dataS$medv) ) 

MSE.net data <- sum( (predict net test start - 

test start)^2)/nrow(test start) 


但 是 如 何 摘 述 神经 网 络 的 预测 结果 是 否 准确 呢 ” 可 使 用 均 廊 误差 (Mean Squared Error, MSE) 作为 一 个 度量 标准 ， 摘 述 
预测 值 距离 实际 值 有 多 远 。 


在 这 方面 ， 值 得 记 住 的 是 ， 在 建立 神经 网 络 之 前 ， 已 经 对 数据 进行 了 标准 化 。 现 在 ， 为 了 能 够 进行 比较 ， 需 要 退 一 步 回 到 一 
开始 的 位 置 。 一 旦 数据 集 恢复 ， 则 可 以 使 用 下 面 的 公式 计算 MSE: 


n | 2 
i=] \ Y predict — Yy actual 


现在 已 经 计算 出 了 MSE， 那 么 将 它 与 什么 进行 比较 呢 ” 为 了 了 解 神经 网 络 预测 值 的 准确 性 ， 可 以 建立 一 个 线性 回归 模型 : 


Regression Model <- lm(medv-., data=data) 

summary (Regression Model) 

test «- data[-index,] 

predict lm «- predict (Regression Model,test) 

MSE.lm <- sum((predict lm - test$medv) *2) /nrow (test) 


使 用 函数 Im 建立 一 个 线性 回归 模型 。 该 函数 用 于 拟 合 线性 模型 ， 它 可 以 用 来 进行 回归 、 单 层次 万 差分 析 和 协 方 差分 析 。 为 
导出 拟 合 模型 的 结果 汇总 ， 使 用 ummary 了 为 数 ， 返 回 结果 如 下 : 
> summary (Regression_Model) 


Call: 
lm(formula = medv ~ ., data = data) 


Residuals: 
Min 10 Median 30 Max 


-15.5944739 -2.7297159 -0.5180489 1.7770506 26.1992710 


Coefficients: 

Estimate Std. Error t value Pr(»|t|) 

(Intercept) 36.4594883851 5.1034588106 7.14407 0.00000000000328344 *** 
crim -0.1080113578 0.0328649942 -3.28652 0.00108681 ** 

zn 0.0464204584 0.0137274615 3.38158 0.00077811 *** 

indus 0.0205586264 0.0614956890 0.33431 0.73828807 

chas 2.6867338193 0.8615797562 3.11838 0.00192503 ** 

nox -17.7666112283 3.8197437074 -4.65126 0.00000424564380765 *** 

rm 3.8098652068 0.4179252538 9.11614 < 0.000000000000000222 大 大 大 

age 0.0006922246 0.0132097820 0.05240 0.95822931 

dis -1.4755668456 0.1994547347 -7.39800 0.00000000000060135 *** 

rad 0.3060494790 0.0663464403 4.61290 0.00000507052902269 *** 

tax -0.0123345939 0.0037605364 -3.28001 0.00111164 ** 

ptratio -0.9527472317 0.1308267559 -7.28251 0.00000000000130884 *** 
black 0.0093116833 0.0026859649 3.46679 0.00057286 *** 

lstat -0.5247583779 0.0507152782 -10.34715 < 0.000000000000000222 大 大 大 


Signif. codes: 0 ‘***’ 0.001 '** 0.01 ‘*’ 0.05 ‘^? 0.1 °’ 1 


Residual standard error: 4.745298 on 492 degrees of freedom 
Multiple R-squared: 0.7406427, Adjusted R-squared: 0.7337897 
F-statistic: 108.0767 on 13 and 492 DF, p-value: < 0.00000000000000022204 


同样 ， 对 于 回归 模型 ， 计 算 MSE。 最 后 ， 为 了 获得 昼 经 网 络 的 性 能 ， 将 MSsE 与 使 用 同样 数据 集 建立 的 多 元 线性 回归 模型 进 
行 比较 : 


MSE.net data 
MSE. 1m 


得 到 的 结果 如 下 : 


> MSE.net data 

[1] 12.0692812 

> MSE.lm 

[1] 26.99265692 


分 析 结 果 ， 可 以 发 现 神经 网 络 的 MSE 相 比 线性 回归 模型 的 MSE 更 低 。 


[1] 1 平方 英尺 =0.0929 平 方 米 。 编辑 注 


29 “神经 网 络 中 的 无 监督 学 习 


这 部 分 介绍 神经 网 络 中 的 无 监督 学 习 ， 也 称 为 竞争 学 习 (competitive learning) 和 Kohonen SOM, Kohonen SOM 由 一 
位 名 为 Teuvo Kohonen 的 教授 友 明 ， 是 一 种 在 低 维度 呈现 多 维 数据 的 方式 : 一 维 或 二 维 。 它 能 够 在 无 监督 的 情况 下 对 数据 进行 
分 类 。 无 监督 学 习 旨 在 友 现 数据 集中 的 隐 含 模式， 并 将 数据 分 类 到 不 同 的 类 别 。 


有 许多 无 监督 学 习 技术 ， 如 K 均 值 (K-mean) 聚 类 、 降 维 (dimensionality reduction) 、EM 等 。 它 们 的 普遍 特征 是 没有 


输入 -输出 的 映射 ， 我 们 仅 对 输入 值 进行 处 理 ， 生 成 一 组 或 多 组 输出 。 


神经 网 络 可 以 用 于 无 监督 学 习 。 它 可 以 将 数据 分 为 不 同 的 类 别 ， 或 将 原始 数据 抽象 到 一 个 不 同 的 输出 数据 点 集合 (特征 抽象 
(feature abstraction) 或 降 维 ) 。 相 比 有 监督 技术 ， 无 监督 技术 需要 的 处 理 能 力 和 内 存 更 少 。 


在 无 监督 神经 网 络 中 ， 疫 有 目标 变量 ,我 们 不 需要 进行 反 同 传播 ， 但 是 需要 在 没有 误差 指标 的 情况 下 不 断 调整 权重 ， 并 尝试 
将 相似 的 数据 集中 在 一 起 。 在 无 监督 神经 网 络 中 ， 有 两 种 方法 : 


: Kohonen SOM 


29.1 RAS 


在 这 里 ， 神 经 网 络 中 的 节点 相互 莞 争 ， 以 获得 对 输入 数据 子 集 做 出 响应 的 权力 。 隐 含 层 称 为 吝 争 层 (competitive 
layer) 。 每 个 竞争 昼 经 元 拥有 目 己 的 权重 ， 我 们 计算 单个 输入 向 量 和 神经 元 权重 之 间 的 相似 度 捐 标 。 对 于 每 个 输入 向 量 ， 隐 合 
钊 经 元 互相 竞争 ， 以 确定 哪个 与 特定 输入 同 量 之 间 最 相似 。 


输出 昼 经 元 航 认为 是 对 输入 模式 的 竞争 。 


. 在 训练 期 间 ， 对 给 定 输入 模式 提供 最 高 激活 函数 值 的 输出 神经 元 被 声明 为 获胜 者 的 权重 ， 并 且 被 移动 到 更 接近 输入 模式 的 
LE, MEE MHA dT E. 


` 这 种 战略 也 称 为 “说 者 通 吃 (winner-takes-all) " ， 因 为 只 有 获胜 的 神经 元 被 更 新 。 


现在 看 一 个 简单 的 竞争 学 习 算 法 的 例子 ， 来 寻找 给 定 输入 数据 中 的 3 个 神经 元 : 


1) 输入 层 有 3 个 输入 神经 元 。 神 经 元 的 每 个 输入 是 一 个 连续 变量 ， 使 每 个 输入 神经 元 的 权重 为 0.0 ~ 1.0 之 间 的 随机 数 。 每 个 
顾 点 的 输出 是 3 个 权重 和 输入 的 点 积 。 


2) 每 个 竞争 层 昼 经 元 接收 权重 与 输入 的 点 积 乙 和 。 
3) 具有 最 高 输出 的 竞争 层 神 经 元 被 当 作 获 胜 者 。 输 入 被 根据 这 个 节点 进行 分 类 。 


4) 获胜 者 更 新 它 的 每 个 权重 ， 将 权重 从 给 出 弱 信号 的 连接 处 移 到 给 出 强 信号 的 连接 处 。 


因此 ， 由 于 接收 到 更 多 的 数据 ， 每 个 节点 在 聚 类 的 中 心 (类 别 的 代表 ) 收敛 。 它 对 属于 该 类 别 的 输入 表现 得 更 强烈 ， 对 于 属 
于 其 他 类 别 的 输入 表现 得 更 弱 。 


对 于 竞争 学 习 ， 有 两 个 基本 的 停止 条 件 : 
` 预 设 定 的 epoch 次 数 : 只 运行 N 次 epoch， 这 防止 了 算法 长 时 间 运 行 而 不 收敛 。 


. 权重 更 新 到 最 小 值 : 算法 一 直 运 行 ， 直 到 权重 更 新 到 最 小 值 。 
29.2 Kohonen SOM 


re FS AV TUB RAS TUBES SIS f Kohonen SOM。 输 出 层 每 个 神经 元 有 两 个 邻 届 。 在 竞争 学 习 中 ， 激 上 友 最 大 值 的 
独 经 元 更 新 其 权重 ， 但 在 SOM 中 ， 邻 近 的 神经 元 也 会 以 一 个 相对 慢 的 速度 更 新 权重 。 神 经 网 络 中 更 新 权重 的 邻近 神经 元 的 个 数 
是 以 问题 的 维度 为 基础 的 。 


对 于 一 个 二 维 的 问题 ，SOM 表 示 如 下 。 


无 监督 学 习 : Kohonen H HREH) 
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如 下 图 所 示 ， 它 说 明了 SOM 如 何 将 不 同 的 颜色 映射 到 不 同 的 类 别 。 


训练 
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现在 逐步 理解 SOM 的 工作 流程 : 


1) 输入 和 聚 类 的 个 数 决定 了 SOM 的 框架 ， 对 每 个 节 点 的 权重 进行 初始 化 。 


2) 从 训练 数据 中 随机 选中 向 量 ， 提 供给 神经 网 络 。 


3) 对 神经 网 络 中 的 每 个 节点 进行 计算 ， 观 察 最 接近 输入 向 量 的 节 上 后。 获胜 的 向 量 通 党 称 为 最 适 配 神 经 元 (Best Matching 
Unit, BMU) 。 


4) 计算 BMU 的 邻居 的 半径 学 围 。 一 开始 这 个 值 比较 大 ， 通 单 家 设置 为 网 络 的 半径 ， 随 着 时 间 步 长 递减 。 
5) 对 BMU 半 径 沁 围 内 的 神经 元 进行 调整 ， 使 它们 更 像 输 入 同 量 。 越 接近 BMU 的 神经 元 ， 权 重 改变 越 多 ，。 
6) 重复 第 2 ~ SHIN RIAN. 

这 些 步骤 重复 N 次 epoch， 直 到 权重 更 新 到 最 小 值 。 


SOM 应 用 于 聚 类 领域 (将 数据 归 类 到 不 同 的 类 别 ) 、 数 据 抽 象 (从 输入 中 导出 输出 数据 ) 和 降 维 (降低 输入 特征 的 个 
数 ) 。SOM 处 理 问 题 的 方式 类 似 于 多 维 标 度 法 (Multi Dimensional Scaling, MDS) ， 不 过 不 是 最 小 化 距离 ， 取 而 代 之 的 是 
尝试 重新 组 合 拓 扑 结构 ， 或 者 换 句 话说 ,尝试 保 持 同 样 的 邻居 。 


现 来 看 一 下 R 中 执行 SOM 的 例子 。 添 加 包 kohonen 是 一 个 安装 于 R 中 提供 实现 SOM 遂 数 的 添加 包 。 


下 面 的 R 程 序 解 释 了 添加 包 kohonen 中 的 一 些 函 数 : 


Hit HE HE FE HH HE HE FE FE ERE FE FE E EE EE HE EE EE ERE FE FE FF FE FE HE FE E EE EE ERE EE FF FF HF ERE EEE EE EE HE FF E FH 
###Chapter 2 - Introduction to Neural Networks - using R HEHEHHHHH HF 
###Usuervised ML technique using Kohonen package ##########HHHHHHHHHH 
HHEHHHHHHHHHHHHH HH HH HHEilename: kohonen. rc#### SS 4443494999499 13448 344 B d 2 HHHH 
TER EE HE E EE EE EE ERE EE ERE E ERE ERE AERE EEE ERE ERE ERE EAE AE EE EE EE E EE EAE ETE E HH EE EAE EAE at HE HE H HE EE 


library ("kohonen") 


data ("wines") 
str(wines) 
head (wines) 
View (wines) 


set.seed(1) 

som.wines - som(scale(wines), grid - somgrid(5, 5, "hexagonal")) 
som.wines 

dim(getCodes (som.wines)) 


plot(som.wines, main - "Wine data Kohonen SOM") 
par(mfrow - c(1, 1)) 
plot(som.wines, type - "changes", main - "Wine data: SOM") 
training - sample(nrow(wines), 150) 
Xtraining - scale(wines[training, ]) 
Xtest - scale(wines[-training, ], 
center - attr(Xtraining, "scaled:center"), 
scale - attr(Xtraining, "scaled:scale")) 
trainingdata - list(measurements - Xtraining, 
vintages - vintages[training]) 
testdata - list(measurements - Xtest, vintages - vintages[-training]) 
mygrid - somgrid(5, 5, "hexagonal") 
som.wines - supersom(trainingdata, grid - mygrid) 


som.prediction = predict (som.wines, newdata = testdata) 
table(vintages[-training], som.prediction$predictions[["vintages"]]) 


HH TEE HH HH TEE HH ERE HE HE TEE FE HE EE FE E FE FE E EE FE E FE TER PE FE ERE EE TEE HE E ERE FE FE E E FE FE E E FE E HE HE ERE ERE ERE RE 


这 段 代 码 使 用 了 wine 数 据 集 ， 这 是 一 个 包含 177 行 、13 列 数据 的 数据 库 ， 对 象 vintages 包 合 类 别 标签 。 这 些 数 据 由 对 意大利 
同一 个 地 区 (Piemonte) 的 葡萄 酒 的 化 学 分 析 得 到 ， 对 应 的 葡萄 有 3 种 ,分 别 是 Nebbiolo、Barberas 和 Grignolino。Nebbiolo 


葡萄 酿 成 的 葡萄 酒 称 为 Barolo。 该 数据 集 包含 3 种 葡萄 酒 中 各 种 成 分 的 伟 量 组 成 ， 以 及 一 些 光 谱 变 量 。 


现在 来 看 一 下 代码 中 每 一 部 分 对 应 的 输出 。 


library ("kohonen") 


代码 的 第 一 行 很 简单 ， 加 载 了 将 要 用 于 计算 的 添加 包 。 特 别 地 ， 添 加 包 kohonen 将 帮助 我 们 训练 SOM。 同 样 ， 也 可 使 用 训 
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€... 记 住 ， 想 要 安装 初始 的 了 R 中 不 存在 的 添加 包 ， 必 须 使 用 函数 install.package。 这 是 安装 添加 包 的 主要 函数 。 它 将 目标 


添加 包 的 名 字 作 为 向 量 参 数 ， 从 库 中 下 载 添加 包 并 进行 安装 。 


data("wines") 
str (wines) 
head (wines) 
view (wines) 


这 些 代码 加 载 wine 数 据 集 ， 正 如 预期 的 ， 它 包含 于 R 中 ， 我 们 将 它 保存 于 一 个 名 为 data 的 给 定数 据 框 内 。 然 后 ， 使 用 函数 
str 观 察 数据 集 的 简单 架构 。 函 数 head 用 于 返回 数据 框 的 前 几 行 。 最 后 ， 函 数 view 调 用 一 个 电子 表格 样式 的 数据 浏览 器 浏览 数据 
框 对 象 ， 如 下 图 所 示 . 


Qo | D | Y Fitter 
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Showing 1 to 18 of 177 entries 


继续 分 析 代 码 : 


set.seed(1) 


som.wines = som(scale(wines), grid = somgrid(5, 5, "hexagonal")) 
dim(getCodes (som.wines) ) 
plot (som.wines, main = "Wine data Kohonen SOM") 


MaxwinesMigla, J T Ren EME, ime Sseed, Fi FAREsomehk—T5 x SAEs, RPA AREA. ZK 
数 在 内 部 进行 Kohonen 处 理 ， 结 果 可 以 通过 对 特征 聚 类 进行 观察 。 一 共生 成 了 25 个 类 别 ， 每 一 个 都 是 有 共同 模式 的 特征 的 集 
合 ， 如 下 图 所 示 。 


wine 数 据 : Kohonen SOM 
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graphics.off() 
par(mfrow = c(1, 1)) 


plot(som.wines, type - "changes", main - "Wine data: SOM") 


下 图 展示 了 到 最 近 神 经 元 的 平均 距离 和 迭代 次 数 之 间 的 关系 。 


Wine 数据 . SOM 


接 下 来 ,我 们 生成 一 个 包含 150 行 数据 的 training 数 据 集 和 一 个 包含 27 行 数据 的 test 数 据 集 。 运 行 SOM 并 对 测试 数据 集 进行 


预测 。 这 里 用 到 了 supersom 函 数 。 该 模型 是 受 监督 的 SOM : 


training = sample(nrow(wines), 150) 


Xtraining = scale(wines[training, ]) 
Xtest = scale(wines[-training, ], 

center = attr(Xtraining, "scaled:center"), 

scale = attr(Xtraining, "scaled:scale") ) 
trainingdata = list (measurements = Xtraining, 

vintages = vintages [training] ) 

testdata = list (measurements = Xtest, vintages = vintages [-training] ) 
mygrid = somgrid(5, 5, "hexagonal") 
som.wines = supersom(trainingdata, grid = mygrid) 


som.prediction = predict(som.wines, newdata = testdata) 
table (vintages [-training], som.prediction$predictions[["vintages"]]) 


最 后 调用 函数 table， 使 用 交叉 分 类 因子 来 建立 每 个 因子 水 平 次 数 的 列 联 表 ， 如 下 所 示 : 


> table(vintages[-training], som.prediction$predictions[["vintages"]]) 


Barbera Barolo Grignolino 


Barbera 5 0 0 
Barolo 0 11 0 
Grignolino 0 0 11 


添加 包 kohonen 摘 述 了 标准 的 SOM 及 其 两 个 拓展 : 用 于 分 类 和 回归 ， 以 及 用 于 数据 挖 据 。 另 外 ， 它 也 有 用 于 可 视 化 的 拓展 
绘图 能 


下 表 列 举 了 添加 包 kohonen 中 可 用 的 函数 。 


函数 名 描述 


som 标准 SOM 

xyf, bdk 有 监督 SOM ， 两 个 平行 映射 
supersom 多 个 平行 映射 的 SOM 
plot.kohonen JA B K] PRIA 
summary.kohonen - 般 的 汇总 函数 

map.kohonen 将 数据 映射 到 最 相似 的 神经 元 
predict.kohonen TOt Jes E EY 388 H PKA 


2.10 小结 


在 本 章节 ， 我 们 探索 了 机 器 学 习 领 域 ， 研 究 了 神经 网 络 的 学 习 过 程 ， 也 学 习 了 区 别 有 监 督学 习 、 无 监督 学 习 和 强化 学 习 。 为 
了 详细 理解 必要 的 过 程 ， 我 们 还 学 习 了 如 何 训练 和 测试 模型 。 


接 下 来 ,我 们 友 现 了 数据 周期 的 意义 ， 以 及 数据 如 何 被 收集 、 清 洗 、 转 换 、 传 递 给 模型 进行 学 习 。 我 们 深入 评估 模型 ， 在 测 
试 阶段 中 ， 观 察 了 预测 值 是 否 等 于 实际 值 。 我 们 根据 目标 变量 的 状态 分析 能 够 控制 模型 的 不 同 指标 。 


然后 ， 我 们 友 现 有 助 于 理解 神经 网 络 的 重要 概念 之 一 一 一 有 反 同 传播 算法 ， 它 在 每 个 层 计算 更 新 权重 和 偏 舌 因 子 。 


最 后 ， 通 过 使 用 添加 包 neuralnet 和 Kohonen， 在 R 中 运行 了 两 个 实践 程序 。 我 们 系统 地 使 用 这 尝 基 本 内 容 ， 为 了 之 后 能 够 
建立 更 复杂 的 神经 网 络 。 


在 接 下 来 的 章 万 ， 将 探索 深度 种 经 网 络 (Deep Neural Network, DNN) 。 我 们 将 看 到 添加 包 h2o 的 一 些 基本 和 内 容 。 总 的 
来 说 ，h20o 是 一 个 高 度 用 尸 友 好 的 添加 包 ， 可 以 用 于 训练 前 向 传播 网 络 或 深度 目 动 编码 器 。 它 支持 分 布 式 计算 ,并 提供 一 个 网 页 
界面 。 通 过 使 用 添加 包 h2o， 残 像 R 中 的 其 他 添加 包 一 样 ， 可 以 完成 所 有 DNN 的 建 模 和 处 理 。 


Sim ”使 用 多 层 神 经 网 络 进行 深度 学 习 


深度 学 习 是 机 器 学 习 /Al 领 域 中 最 近 的 热门 。 它 全 是 关于 建立 高 级 神经 网 络 的 。 通 过 在 神经 网 络 中 建立 多 个 隐 含 层 ， 可 以 处 
理 数据 中 复杂 的 非 线 性 表述 。 我 们 使 用 基本 神经 网 络 建立 深度 学 习 。 深 度 学 习 在 实际 生活 中 有 许多 案例 ， 例 如 ， 无 人 驾驶 汽车 、 
医疗 诊断 、 计 算 机 视觉 、 语 痛 识 别 、 自 然 语言 处 理 (Natural Language Processing, NLP) 、 手 写 识 别 、 语 言 翻译 等 许多 领 


Jk. 


在 本 章节 ， 我 们 将 了 解 深度 学 习 过 程 : 如 何 训练 、 测 试 和 部 署 一 个 深度 学 习 网 络 (Deep Neural Network, DNN) 。 我 们 
将 研究 R 中 不 同 的 添加 包 以 建立 DNN， 学 习 如 何 使 用 添加 包 neuralnet 建 立 和 训练 一 个 DNN。 最 后 ， 将 分 析 一 个 使 用 H2O 训 | 练 
和 建 YDNN 的 例子 ，H2O 是 一 个 可 扩展 的 开放 式 内 存 学 习 平 台 ， 可 对 大 型 数据 集 建 模 ， 并 使 用 高 度 精 确 的 方法 进行 预测 。 


ARAH: 


: DNN 的 类 型 

用 于 深度 学 习 的 R 添 加 包 

: 使 用 添加 包 neuralnet 训 练 和 建立 一 个 DNN 
. 添加 包 h2o 


在 本 章节 的 最 后 部 分 ， 我 们 将 理解 深度 学 习 的 基本 概念 ， 以 及 如 何在 R 环 境 中 实现 它 。 我 们 将 友 现 不 同类 型 的 DNN， 学 习 如 
何 训练 、 测 试 和 部 署 一 个 模型 ， 并 了 解 如 何 使 用 H2O 训 练 和 建立 一 个 DNN。 
3.1 DNN 

随 着 大 数据 处 理 基础 设施 、GPU 和 GP-GPU 的 到 来 ， 我 们 现在 能 够 应 对 浅 层 神经 网 络 的 挑战 ， 即 过 拟 合 和 梯度 消失 的 问 


题 ， 使 用 各 种 激活 函数 和 L1/L2 正 规 化 技术 。 深 度 学 习 可 以 简单 有 效 地 处 理 大量 标 俭 数据 和 未 标 等 数据。 


正如 前 面 所 说 ， 深 度 学 习 是 机 器 学 习 的 一 类 ， 在 多 层 神经 网 络 中 进行 学 习 。 下 图 摘 述 了 DNN 的 标准 流程 。 
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分 析 上 图 ， 可 以 注意 到 神经 网 络 的 一 个 显著 的 变化 。 平 静 下 来 ， 会 友 现 深度 学 习 不 像 看 上 去 的 样子 ， 它 其 实 只 是 昼 经 网 络 的 
延伸 。 简 单 来 讽 ， 一 个 DNN 是 一 个 多 层 神 经 网 络 ， 包 含 两 个 或 者 更 多 个 隐 含 层 ， 不 是 非 单 复 杂 。 通 过 增加 更 多 的 层 、 在 每 层 增 
加 更 多 的 神经 元 ， 我 们 提高 了 训练 数据 的 模型 的 专业 化 ， 但 是 降低 了 它 天 于 测试 数据 集 的 性 能 。 


正如 预期 的 那样 ，DNN 是 从 ANN 衍 生出 来 的 。 通 过 建立 多 个 隐 合 层 ， 可 建 YDNN 模 型 。 如 下 所 述 ， 有 许多 类 型 的 DNN: 


度 信念 网 络 (Deep Belief Network, DBN) : 这 通 种 是 一 种 前 锁 神 经 网 络 ， 数 据 从 一 个 层 流向 另 一 个 层 ， 并 且 不 再 返 


回 。 它 包含 至 少 一 个 隐 含 层 ， 可 以 通过 增加 多 个 隐 含 层 来 增加 复杂 度 。 


` SE FR EUER € Xu (Restricted Boltzmann Machine, RBM) : 它 包 含 单 个 隐 含 层 ， 组 内 的 节点 之 间 没 有 连接 。 这 是 神经 网 络 


的 一 个 简单 的 多 层 感知 机 模型 (MLP) 。 


` 循环 神经 网 络 (Recurrent Neural Network, RNN) 和 长 短期 记忆 (Long Short Term Memory, LSTM) : 这 些 神 经 网 络 在 组 


内 和 组 间 没 有 数据 流动 。 


和 其 他 机 器 学 习 算 法 一 样 ， 即 使 是 DNN 也 需要 建立 、 训 练 和 评估 过 程 。 一 个 简单 的 深度 学 习 工 作 流 程 如 下 图 所 示 。 


训练 集 


这 些 工作 流程 和 之 前 介绍 过 的 有 监督 学 习 算 法 中 的 图 很 相似 。 但 是 ， 是 什么 让 它 区 别 于 机 器 学 习 算 法 呢 ? 


几乎 所 有 的 机 器 学 习 算 法 都 表明 它们 在 识别 原始 输入 数据 的 特征 过 程 中 存在 限制 ， 特 别 是 当 数 据 十 分 复杂 并 且 缺 乏 明显 的 排 
序 时 ,例如 图 像 。 通 常 ， 这 个 限制 是 通过 人 工 解决 的 ， 人 们 关心 的 是 识别 机 器 不 能 做 什么 。 深 度 学 习 去 除了 这 一 步 ， 依 靠 训练 过 
程 通过 输入 样本 友 现 最 有 用 的 模型 。 同 时 ， 在 那 种 情况 下 ， 为 了 在 开始 训练 之 前 做 出 选择 ， 人 为 干预 是 必要 的 ,但 是 特征 的 自动 
发 现 会 变 得 更 容易 。 与 机 器 学 习 提 供 的 其 他 解决 方案 相 比 ， 使 神经 网 络 特 别 有 用 的 是 该 模型 具有 很 强 的 泛 化 能 力 。 


这 些 特征 已 经 使 得 深度 学 习 对 于 几乎 所 有 需要 上 自动 学 习 的 任务 非常 有 效 ， 尤 其 对 于 一 些 复杂 的 分 层 数 据 特别 有 效 。 其 底层 的 
ANN 形 成 高 度 非 线 性 表达 ， 它 们 通常 由 多 个 层 结合 非 线性 转换 和 传统 染 构 组 成 。 


从 本 质 上 讲 ， 深 度 学 习 对 真实 世界 的 混乱 数据 非常 有 效 ， 这 使 其 成 为 未 来 几 年 几 个 技术 领域 的 关键 工具 。 和 直到 最 近 ， 这 个 曾 
经 黑暗 且 艰 巨 的 领域 中 的 一 毕 成 功 进展 市 来 了 许多 优秀 的 资源 和 项 目 ， 使 得 它 比 以 往 更 容易 研究 。 


既然 已 经 了 解 了 DNN， 现 在 来 看 一 下 R 开 友 环 境 给 我 们 提供 的 处 理 这 类 特殊 主题 的 工具 。 


32 ”用 于 DNN 的 R 语 言 


在 之 前 的 部 分 ， 我 们 介绍 了 一 些 深度 学 习 基 础 的 天 键 概念 。 同 时 ， 也 了 解 了 使 深度 学 习 便 于 使 用 的 特点 。 另 外 ， 深 度 学 习 的 


迅速 扩散 也 归功 于 各 种 编程 语言 的 大 量 可 用 的 框架 和 添加 包 。 


由 于 Ri 语言 极 易 使 用 ， 因 此 它 被 科学 家 和 程序 员 广 泛 使 用 。 另 外 ， 一 些 拓展 的 添加 包 人 允许 专业 数据 能 锐 大 多 数 算法 可 视 化 和 
分 析 。 深 度 学 习 算 法 的 快速 传播 催生 出 了 越 来 越 多 的 可 用 于 深度 学 习 的 软件 包 ， 即 使 在 R 中 也 是 如 此 。 


下 面 的 表格 展示 了 R 中 各 种 用 于 深度 学 习 的 添加 包 或 交互 界面 。 


CRAN 添加 包 支持 的 神经 网 络 类 别 


MXNet 前 馈 神经 网 络 ，CNN 


darch RBN, DBN 


deepnet 前 馈 神 经 网 络 ，RBN，DBN， 目 动 编码 需 
h2o 前 馈 神 经 网 络 ， 和 上 自动 编码 需 
nnet 和 neuralnet 前 馈 神 经 网 络 


Keras 各 种 DNN 
TensorFlow 各 种 DNN 


底层 语言 或 供应 商 
C/C++/CUDA 
8) Oa cy 

R 

Java 

R 

Python/keras.jo 


C++,Python/Google 


MXNet 是 一 个 现代 的 、 便 捷 的 深度 学 习 添 加 包 ， 可 以 支持 各 种 机 器 。 全 球 级 的 企业 和 大 学 采用 MXNet 作 为 一 种 机 器 学 习 框 
架 ， 包 括 Amazon、lntel、Data、Baidu、Microsoft、Wolfram Research, EA-EZ, MIT, EKMA, 


MXNet 是 一 种 开源 框架 ， 人 允许 快速 建 模 ， 并 支持 在 多 种 编程 语言 
R、Scala、Perl 和 Wolfram) 下 进行 灵活 的 编程 建 模 。 


(C++, Python, Julia, MATLAB, JavaScript, Go, 


MXNet 框 慷 广 持 R 编 程 语 言 。MXNet 的 R 添 加 包 提 供 了 灵活 局 效 的 GPU 计算 和 R 中 最 先进 的 深入 研究 。 它 允许 我 们 在 R 中 结 
合 多 个 GPU 编 写 流畅 的 张 量 或 矩阵 计算 程序 。 同 时 ， 它 允许 我 们 在 R 中 建立 和 定制 最 先进 的 深度 学 习 模 型 ， 并 将 它们 应 用 到 实例 


中 ， 例 如 图 像 分 类 和 数据 科学 挑战 等 。 


darch 框 架 基 于 G.E.Hinton 和 R.R.Salakhutdinov 编 写 的 代码 ， 可 以 在 MATLAB 环 境 下 用 于 DBN。 这 个 添加 包 可 以 生成 多 层 
(深度 架构 ) 的 神经 网 络 ， 用 作者 开发 的 创新 方法 生成 。 这 种 方法 提供 了 由 G.Hinton (2002) 发 表 的 对 比分 层 方 法 
(contrasting divergence method) 的 叭 形 ， 并 用 常见 的 训练 算法 (RISE) 进行 微调 。 另 外 ， 微 调 的 有 监督 算 


法 可 以 通过 maxout 和 dropout 提 升 ， 这 是 两 个 最 近 友 展 的 拉 术 ， 用 于 对 深度 学 习 提 升 微调 效果 。 


添加 包 deepnet 是 一 个 相对 较 小 但 十 分 强大 的 添加 包 ， 其 中 包含 各 种 各 样 的 架构 。 这 个 添加 包 可 以 实行 一 些 深 度 学 习 算 法 和 
独 经 网 络 算法 ， 包 括 反 向 传播 、RBM、DBN、 深 度 目 动 编码 器 等 。 与 其 他 分 析 过 的 添加 包 不 同 ， 这 是 专门 为 R 编 写 的 。 其 中 包 


A— ERZ, 
 nn.tràn: 用 于 训练 反 向 传播 神经 网 络 中 的 单个 或 多 个 隐 含 层 。 
nn.predict: 用 于 预测 训练 神经 网 络 的 新 样本 。 
- dbn.dnn.train: 用 于 训练 一 个 DNN， 权 重 由 DBN 初 始 化 得 到 。 


ftbm.train: 用 于 训练 一 个 RBM。 


R 添 加 包 h2o 包 合 建 立 广义 线性 回归 、K 均 值 、 朴 素 贝 叶 斯 、 主 成 分 分 析 、 随 机 森林 和 深度 学 习 (多 层 神 经 网 络 模型 ) AR 
数 。 添 加 包 h2o 是 一 个 CRAN 的 外 部 添加 包 ， 使 用 java 建立， 可 以 用 于 多 种 平台 。 这 是 一 个 用 于 大 数据 的 开源 数学 引擎 ， 可 以 用 
于 并 行 分 布 的 机 器 学 习 算 法 的 计算 。 


添加 包 nnet 和 neuralnet 已 经 在 之 前 的 章节 中 进行 了 广泛 的 讨论 。 这 是 两 个 在 R 中 用 于 管理 神经 网 络 的 添加 包 。 它 们 也 可 以 
用 于 建立 和 训练 多 核 神 经 网 络 ， 所 以 它们 依赖 于 深度 学 习 。 


Keras 是 一 个 在 Python 中 编写 的 开源 昼 经 网 络 添加 包 ， 虽 在 实现 DNN 的 快速 实验 ， 重 点 在 于 最 小 化 、 模 块 化 和 可 扩展 性 。 
这 个 添加 包 包 含 多 种 音 用 的 构建 模块 的 神经 网 络 的 实现 方法， 包括 层 、 对 象 、 激 活 函 数 、 优 化 ， 以 及 大 量 可 以 更 轻松 地 处 理 图 像 
和 文本 数据 的 工具 。 代 码 托管 在 GitHub、 社 区 支持 论坛 包括 GitHub 问 题 页 面 、Gitter 和 slack) 。 


TensorFlow 是 一 个 用 于 机 器 学 习 的 开源 软件 添加 包 。 它 包含 一 个 用 于 建立 和 训练 神经 网 络 的 系统 ， 用 于 检测 和 解密 模式 与 
相关 性 ， 采 用 类 似 于 人 类 学 习 所 采用 的 方法 。 它 可 以 用 于 搜索 或 Google 产 品 。 


3.3 ”通过 neuralnet 建 立 多 层 神 经 网 络 


在 理解 了 深度 学 习 的 基础 知识 后 ， 是 时 候 将 获得 的 技能 应 用 到 一 个 实际 的 案例 中 了 。 之 前 章节 的 实际 案例 使 用 了 添加 包 
nnet 和 neuralnet。 由 于 已 经 学 习 了 一 些 添加 包 neuralnet 的 实际 案例 ， 这 里 开始 对 深度 学 习 领 域 进行 探索 。 


首先 ， 介 绍 将 要 用 来 建立 和 训练 神经 网 络 的 数据 集 。 这 个 数据 集 名 为 College， 它 包含 大 量 美国 大 学 的 统计 数据 ， 源 上 自 1995 
出 版 的 《US News and World Report》。 这 个 数据 集 从 添加 包 StatLib 中 获取 ， 由 卡 内 基 - 梅 隆 大 学 维护 。 


现在 事情 进一步 得 到 了 人 简化， 因为 我 们 不 需要 检索 数据 然后 将 它 导 入 R 中 ， 因 为 这 些 数据 已 经 包谷 在 R 添 加 包 中 。 参 考 添加 
包 ISLR， 我 们 只 需要 安 丢 添加 包 并 进行 加 载 。 现 在 ， 来 看 一 下 数据 集 College 的 内 容 。 这 是 一 个 包含 777 个 样本 的 数据 框 ， 有 以 


下 18 个 变量 : 


` Private: 包含 No 和 Yes 两 种 取 值 ， 代 表 是 私立 大 学 还 是 公立 大 


4 


- Apps: 收 到 的 申请 数量 。 

- Accept: 接 到 的 申请 数量 。 

- Enroll: 入 学 的 新 生 人 数 

: Topl0perc: H.S. 前 10% 的 新 生 比 例 。 
. Top25perc: H.S. 前 25% 的 新 生 比例 。 
- F.Undergrad: 全 日 制 本 科 生 人 数 

: P.Undergrad: 非 全 日 制 本 科 生 人 数 。 
- Outstate: 州 外 学 生 。 

: Room.Board: 食 宿 费用。 


: Books: 预 估 的 书本 费用 。 


: Personal: 预计 个 人 支出 。 
- PhD: 拥有 博士 学 位 的 教师 比例 。 
` Terminal: 拥有 最 高 学 位 的 教师 比例 。 
: S.F.Ratio: 学 生 / 教 师 比 例 。 
. perc.alumni: 有 捐赠 的 校友 百分比 。 
` Expend: 每 个 学 生 的 教学 费用 。 
: Grad.Rate: 人 毕业 率 。 
我 们 的 目的 是 建立 一 个 多 层 神 经 网 络 ， 根 据 其 他 17 个 变量 的 值 预测 学 校 是 公立 大 学 还 是 私立 大 学 。 
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library("neuralnet") 

library (ISLR) 


data = College 
View (data) 


max data «- apply(data[,2:18], 2, max) 

min data «- apply(data[,2:18], 2, min) 

data scaled «- scale(data[,2:18],center - min data, scale - max data - 
min data) 


Private = as.numeric(CollegeS$Private)-1 
data scaled - cbind(Private,data scaled) 


index - sample(1:nrow(data),round(0.70*nrow(data))) 
train data «- as.data.frame(data scaled[index,]) 
test data «- as.data.frame(data scaled[-index,]) 


n = names (train data) 

f <- as.formula(paste("Private ~", paste(n[!n $in$ "Private"], collapse = " 
LJ P 

deep net = neuralnet(f,data-train data,hidden-zc(5,3),linear.output-F) 

plot (deep net) 


predicted data «- compute (deep net,test data[,2:18]) 
print (head(predicted data$net.result)) 
predicted data$net.result «- 


sapply (predicted data$net.result,round,digits-0) 


table(test data$Private,predicted data$net.result) 


和 之 前 一 样 ， 逐 行 分 析 代 码 行 ， 详 细 和 解释 用 于 获取 结果 的 所 有 特征 。 


library ("neuralnet") 
library (ISLR) 


和 之 前 一 样 ， 原 始 代 码 的 前 两 行 用 于 加 载 分 析 所 需要 的 添加 包 。 


EN 
IS 

X 
O 

Gy 
As 
chy 
w 
3k 


€... TE, WRZ RP REANA mE, 9h HS FH Reinstall. package. ÆRA m 68 i Xu 
EA 


添加 包 的 名 字 作 为 向 量 参 数 ， 从 仓库 中 下 载 添加 包 并 进行 安装 。 这 个 函数 只 需要 使 用 一 次 ， 不 需要 每 次 都 运行 这 名 代码 。 


data = College 
View (data) 


这 一 命令 行 用 于 加 载 数据 集 College (如 预期 的 那样 ， 包 合 在 添加 包 ISLR 中 ) ， 并 将 它 保存 在 一 个 给 定 的 数据 框 中 。 使 用 冰 
数 View 可 以 以 紧凑 的 形式 查看 任意 R 对 象 的 结构 。 下 图 显示 了 包 合 在 数据 集 College 中 的 部 分 数据 。 
@ Rstudio Source Editor 
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Abilene Christian University Yes 

Adelphi University | Yes 

Adrian College | Yes 

Agnes Scott College | Yes 

Alaska Pacific University | Yes 

Albertson College | Yes 

Albertus Magnus College Yes 

not conge er 

Alderson-Broaddus College | Yes SE2|  498| 172 

a 

Allegheny College Yes 2652| 1900) 484 
Allentown Coll. of St. Francis de Sales Yes | | 

Fa Alma College | Yes 

Alverno College | Yes 

American International College | Yes 147 | 19 

Amherst College | Yes 5300 BA 63 


660 

Anderson University | Yes 3520| 550 1100 48 61 121 14 
I | 

Angelo State University | No 3592| 50| 200 60 23.1 
m 
Appalachian State University No | 2540|  96| 200 8 
Aquinas College | Yes | | 4124| 350| 1615| 55 
Arizona State University Main campus | No 4850| 700| 2100 | 88 
Arkansas College (Lyon College) | Yes 
Arkansas Tech University | No 
Assumption College | Yes 
Auburn University-Main Campus | No 
Augsburg College Yes 
Augustana College IL | Yes 


Augustana College Yes 
Austin College | Yes 


TF 
SIR 
出 | w 


B&R 
Ris 


183 
12.7 
189 


93 


Ww 


Showing 1 to 33 of 777 entries 


下 面 列 出 了 一 系列 的 统计 数据 ， 行 代表 观察 结果 ， 列 代表 检测 到 的 特征 : 


max data «- apply(data[,2:18], 2, max) 

min data «- apply(data[,2:18], 2, min) 

data scaled «- scale(data[,2:18],center - min data, scale - max data - 
min data) 


在 这 段 代 码 中 ， 我 们 需要 对 数据 进行 标准 化 。 


Qez: 请 记 住 ， 在 训练 神经 网 络 前 对 数据 进行 标准 化 是 一 个 好 的 尝试 。 通 过 标准 化 ， 数 据 的 单位 被 消除 ， 使 你 能 够 简单 
地 从 不 同 角度 比较 数据 。 


对 于 这 个 例子 ， 我 们 将 使 用 最 小 -最 大 法 (min-max method， 通 常 称 为 特征 标准 化 ) ， 使 所 有 标准 化 后 的 数据 落 在 [0,1] 之 
间 。 在 应 用 标准 化 方法 乙 前 ， 必 须 计算 数据 集 每 一 多 的 最 小 值 和 最 大 值 。 这 个 过 程 已 经 企 第 2 章 中 展示 。 


最 后 一 行将 标准 化 方法 应 用 于 数据 。 请 注意 ， 我 们 已 经 将 标准 化 方法 应 用 于 最 后 17 列 数据 中 (第 2~ 18 列 ) ， 除 了 第 一 列 ， 


包含 No 和 Yes 两 种 取 值 的 Private 代 表 是 否 为 私立 大 学 或 公立 大 学 。 它 是 建立 神经 网 络 的 目标 变量 。 为 了 确认 我 们 所 说 的 内 容 ， 
可 以 检查 数据 集中 包含 的 变量 的 类 型 。 为 了 完成 这 一 步 ， 将 使 用 函数 str 以 紧凑 的 形式 得 看 任意 R 对 象 的 结构 : 


> str(data) 

'data.frame': 777 obs. of 18 variables: 

Private : Factor w/ 2 levels "No","Yes": 2222222 2 2 2 
Apps : num 1660 2186 1428 417 193 

Accept : num 1232 1924 1097 349 146 

Enroll : num 721 512 336 137 55 158 103 489 227 172 
ToplOperc : num 23 16 22 60 16 38 17 37 30 21 

Top25perc : num 52 29 50 89 44 62 45 68 63 44 

F.Undergrad: num 2885 2683 1036 510 249 

P.Undergrad: num 537 1227 99 63 869 

Outstate : num 7440 12280 11250 12960 7560 

Room.Board : num 3300 6450 3750 5450 4120 

Books : num 450 750 400 450 800 500 500 450 300 660 

Personal : num 2200 1500 1165 875 1500 

PhD : num 70 29 53 92 76 67 90 89 79 40 

Terminal : num 78 30 66 97 72 73 93 100 84 41 

S.F.Ratio : num 18.1 12.2 12.9 7.7 11.9 9.4 11.5 13.7 11.3 11.9 
pero,alumni;: num 12 16 30 37 2 11 26 37 23 15 

Expend : num 7041 10527 8735 19016 10922 

Grad.Rate : num 60 56 54 59 15 55 63 73 80 52 


Ur Xr X UY XY XU XU XY XY XY X XY XY XY XY XY XY UY 


和 预期 一 样 ， 第 一 个 变量 是 Factor 类 型 ， 包 合 两 种 取 值 : No 和 Yes。 对 于 剩 下 的 17 个 变量 ， 都 是 数值 型 。 第 1 章 提 到 ， 只 有 
数值 型 变量 可 以 用 于 神经 网 络 ， 因 为 它 是 一 个 具有 近似 消 数 功能 的 数学 模型 。 因 此 第 一 个 变量 (Private) 和 存在 问题 。 别 担心 ， 
这 个 问题 可 以 轻松 地 和 解决， 只 需要 将 其 转换 为 数值 变量 即 可 : 


Private = as.numeric(College$Private)—1 
data scaled = cbind (Private, data scaled) 


现在 ， 第 一 行 代码 将 变量 Private 转 换 为 数值 型 ， 而 第 二 行 代码 用 于 重 构 具 有 该 变量 以 及 剩余 17 个 适当 标准 化 后 的 变量 的 数 
据 集 。 为 了 完成 这 一 步 ， 使 用 晃 数 cbind 及 用 一 系列 向 量 、 算 阵 或 数据 框 参数 ， 按 列 或 行进 行 组 合 : 


index = sample (1:nrow(data),round(0.70*nrow (data) ) ) 
train data <- as.data.frame (data_scaled[index, ] ) 
test data <- as.data.frame(data scaled[-index,]) 


现在 是 时 候 将 数据 集 划 分 为 神经 网 络 中 的 训练 集 和 测试 集 了 。 在 第 一 行 代码 中 ， 数 据 集 按 70 : 30 进 行 划 分 ， 目 的 是 使 用 
70% 的 数据 训练 网 络 ， 剩 下 的 30% 用 来 测试 网 络 。 在 第 三 行 代码 中 ， 名 为 data 的 数据 框 被 分 为 两 个 新 的 数据 框 ， 分 别名 为 
train data 和 test data: 


n = names(train data) 
f <- as.formula(paste("Private ~", paste(n[!n $in$ "Private"], collapse = " 


+ "))) 


在 这 段 代码 中 ， 使 用 遂 数 names 获 取 了 所 有 的 变量 名 。 这 一 遂 数 用 于 获取 或 设置 一 个 对 象 的 名 字 ， 然 后 设置 了 用 于 构建 神 
经 网 络 的 公式 ， 因 此 我 们 使 用 函数 neuralnet 建 立 和 训练 神经 网 络 。 目 前 为 止 所 有 的 步骤 都 只 是 用 来 准备 数据 。 现 在 是 时 候 建 立 
神经 网 络 了 : 


deep net = neuralnet(f,data-train data, hidden=c(5,3),linear.output=F) 


这 是 代码 中 的 关键 一 行 。 这 一 步 建立 和 训练 了 神经 网 络 ， 现 详细 地 对 它 进 行 分 析 。 我 们 预料 到 会 使 用 添加 包 neuralnet 建 立 
DNN。 但 是 ， 这 和 已 经 建立 的 一 个 单 隐藏 层 网 络 有 何 变化 ”这 一 切 都 包含 于 参数 hidden 的 设置 中 。 


Qz: 请 记 住 ， 参 数 hidden 必 须 包 含 一 个 数值 型 向 量 ， 用 于 指定 每 个 层 中 的 隐 含 神经 元 (节点 ) 的 个 数 。 


在 我 们 的 案例 中 ， 通 过 向 量 (5, 3) 对 隐 含 层 进行 设置 。 向 量 (5，3) 代表 包含 两 个 隐 含 层 ， 第 一 个 隐 含 层 有 5 个 神经 元 ， 
第 二 个 隐 合 层 有 3 个 神经 元 。 


plot (deep_net) 


这 一 行 代码 简单 地 绘制 了 神经 网 络 的 结构 ， 如 下 图 所 示 。 
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练 ， 这 里 只 需要 验证 它 的 预测 能 


正如 所 看 到 的 ， 神 经 网 络 模型 得 到 了 建立 和 训 


predicted data «- compute(deep net,test data[,2:18]) 
print (head(predicted data$net.result)) 


为 了 对 测试 数据 进行 预测 ， 可 以 使 用 函数 compute。 这 是 一 个 用 于 nn 对 象 的 亢 数 ， 通 冲 由 函数 neuralnet 获 取 。 给 定 训练 
独 经 网 络 ， 计 算 特 定 的 任意 协 变 量 向 量 的 所 有 神经 元 的 输出 。 确 保 新 的 和 矩阵 或 数据 框 中 协 变 量 的 顺序 与 原始 昼 经 网 络 中 的 相同 是 
至 关 重 要 的 。 然 后 ， 为 了 进行 可 视 化 ， 对 预测 结果 的 第 一 行使 用 立 数 print， 如 下 所 示 : 


> print (head (predicted data$net.result)) 
[,1] 

Abilene Christian University 0.1917109322 
Adelphi University 1.0000000000 
Adrian College 1.0000000000 
Agnes Scott College 1.0000000000 
Albertus Magnus College 1.0000000000 
Albion College 1.0000000000 


正如 所 看 到 的 ， 预 测 的 结果 以 小 数 显 示 ， 接 近 于 两 个 期 望 类 别 的 取 值 (1 和 0) ， 但 并 不 是 精确 等 于 这 两 个 值 。 由 于 需要 精 
确 地 确定 这 些 值 ， 所 以 可 以 让 它们 与 当前 值 进行 比较 。 为 了 完成 这 一 步 ， 我 们 将 使 用 函数 sapply， 将 这 些 值 四 舍 五 入 到 0 或 1， 
然后 可 以 用 测试 标签 进行 评估 : 


predicted data$net.result «- 
sapply(predicted data$net.result,round,digits-0) 


正如 预期 的 那样 ， 遂 数 sapply 将 预测 结果 四 舍 五 入 到 可 用 的 类 别 ， 现 在 则 有 了 所 有 用 于 比较 的 内 容 ， 这 样 可 以 将 DNN 作 为 
一 个 预测 工具 进行 评估 : 


table (test data$Private,predicted data$net.result) 
为 了 进行 比较 ， 将 使 用 混淆 和 矩阵。 建立 混淆 答 阵 时 ， 只 需要 使 用 遂 数 table。 事 实 上 ， 消 数 table 使 用 交叉 分 类 因子 来 构建 每 
个 因子 水 平 组 合 的 计数 列 联 表 。 


Bice: 混 清 短 库 是 一 种 多 许 对 算法 结果 进行 可 视 化 的 特殊 表格 。 每 一 行 代表 实际 类 别 中 的 实例 ， 每 一 列 代表 预测 类 列 中 
的 实例 。 术 语 混淆 丐 阵 来 源 于 由 它 能 够 容易 地 看 出 系统 是 否 混淆 了 两 个 类 。 


现 来 看 一 下 获得 的 结 


> table(test_data$Private, predicted data$net.result) 


0 1 
0 49 8 
1 9 167 


DISTERE— PER. Bc, ENBAR, Xe CACTI, BOAR RIMS SC 
类 别 相 符 的 个 数 。 似 乎 在 我 们 的 模拟 中 ， 有 很 好 的 比较 结果 。 事 实 上 ， 我 们 将 49 个 样本 预测 为 类 别 0 (No) ， 将 167 个 样本 预测 
为 类 别 1 (Yes) 。 但 是 ， 现 分 析 一 下 竟 消 矩阵 中 剩 下 的 两 个 元 素 ， 它 们 代表 模型 出 错 的 情况 。 


正如 在 第 2 章 定义 的 ，8 是 假 阴 性 (FN) 的 个 数 ，9 是 假 阳性 (FP) 的 个 数 。 在 这 里 ，FN 意 味 着 在 实际 数据 中 为 阳性 但 被 了 预 
测 为 阴性 的 数量 ， 而 FP 是 在 实际 数据 中 为 阴性 但 被 预测 为 阳性 的 数量 。 可 以 使 用 消 数 table 再 次 进行 检查 : 


> table(test data$Private) 
0 1 
57 176 


这 表示 在 实际 的 结果 中 ，57 个 结果 属于 类 别 0，176 个 结果 属于 类 别 1。 通 过 对 混淆 矩阵 的 行进 行 加 和 ， 可 以 得 到 下 面 两 个 结 


> 49 + 8 
[1] 57 
> 9 + 167 
[1] 176 


现在 再 次 使 用 遂 数 table 获 得 预测 数据 中 的 样本 数 : 


> table (predicted data$net.result) 
0 1 
58 175 


这 表示 在 预测 的 结果 中 ，58 个 结果 属于 类 别 0，175 个 结果 属于 类 别 1。 通 过 对 混淆 矩阵 的 询 进行 加 和 ， 可 以 得 到 下 面 两 个 结 


> 49 + 9 
[1] 58 
> 8 + 167 
[1] 175 


DE AES BRS PASE SAT EH. ERSIEEH PUUI: 


+ TN + TN 
ACC - 22 IN. TP+ TN 
P+N TP+TN+FEP+EN 


A, 


[xf 


TP= 真 阳性 
TN= 真 阴性 
FP= 假 阳性 
FN= 假 阴性 


用 以 下 代码 计算 准确 度 : 


> Acc = (49 + 167) / (49 + 167 + 9 + 8) 
> Acc 
[1] 0.9270386266 


所 得 到 的 准确 度 大 约 为 93%， 说 明 我 们 的 模型 能 够 预测 数据 并 能 得 到 一 个 展 好 的 结果 。 


3.4 使 用 H2O 对 DNN 进 行 训 


练 和 建 模 


这 一 部 分 给 出 一 个 使 用 H2O 训 练 和 建 YDNN 的 例子 。H20O 是 一 个 开源 、 利 用 内 存 (in-memory) 、 可 扩展 的 机 器 学 习 和 AAl 
平台 ， 用 于 建立 大 数据 模型 ， 并 实现 高 准确 度 万 法 的 了 预测。 添加 包 h2o 在 大 量 机 构 中 进行 了 大 规模 的 调整 ， 以 实现 数据 科学 的 操 
作 并 提供 构建 数据 产品 的 平台 。 它 运行 迅速 ， 利 用 机 器 染 构 的 优点 并 结合 GPU 进 行 处 理 。 它 能 够 高 度 准确 地 执行 深度 学 习 、 和 神 
经 网 络 和 其 他 机 器 学 习 算 法 。 


正如 之 前 所 说 ，R 中 的 添加 包 h2o 具 有 建立 广义 线性 回归 、K 均 值 、 朴 素 贝 叶 斯 、PCA、 随 机 和 森林 和 深度 学 习 (多 层 神 经 网 
络 模型 ) 的 函数 。 添 加 包 h2o 是 CRAN 的 外 部 扩展 包 ， 通 过 java 建立 。 它 可 以 用 于 多 种 平台 。 


可 通过 以 下 代码 在 R 中 安装 h2o: 


install .Packages ("h20") 


获得 的 结果 如 下 : 


> install.packages("h20") 

Installing package into 'C:/Users/Giuseppe/Documents/R/win-library/3.4' 
(as ‘lib’ is unspecified) 

trying URL 
'https://cran.rstudio.com/bin/windows/contrib/3.4/h20 3.10.5.3.zip' 
Content type 'application/zip' length 73400625 bytes (70.0 MB) 
downloaded 70.0 MB 

package “h2o” successfully unpacked and MD5 sums checked 

The downloaded binary packages are in 
C:\Users\Giuseppe\AppData\Local\Temp\RtmpGEc5iI\downloaded_ packages 
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统计 学 家 、 生 物 学 家 Ronald Fisher 在 1936 年 的 论文 《The use of multiple measurements in taxonomic problems) P42 
出 ， 可 作为 一 个 线性 判别 分 析 的 例子 。 


数据 集 包 含 3 种 类 别 芒 尾 花 (setosa. virginica, versicolor) 各 50 个 样本 。 每 个 样本 包含 4 个 特征 : SAAMI E ES 
以 厘米 为 单位 。 


i 


数据 集 包 合 以 下 变量 : 

- Sepal.Length， 以 厘米 为 单位 。 
- Sepal.Width， 以 厘米 为 单位 。 
- Petal.Length， 以 厘米 为 单位 。 
- Petal.Width， 以 厘米 为 单位 。 


下 图 简单 展示 了 数据 集 iris 的 框架 。 


€3 RStudio Source Editor 一 口 X 
Jiris x 


Sepal.Length Sepal.Width Petal.Length  Petal.Width Species 
5.1 39 1.4 0. 


N 


setosa 
4.9 3.0 1.4 0.2 setosa 
4.7 3.2 1.3 0. 
4.6 3,1 1.5 0. 
5.0 3.6 1.4 0. 
5.4 3.9 1.7 0.4 setosa 


N 


setosa 


N 


setosa 


N 


setosa 


4.6 3.4 1.4 0. 
5.0 3.4 1.5 0. 
44 2.9 1.4 0. 


UJ 


setosa 


N 


setosa 


wo own nv d Ww Ne = 


N 


setosa 
10 4.9 3.1 1.5 0.1 setosa 
11 5.4 3.7 1.5 0. 


N 


setosa 
12 4.8 3.4 1.6 0.2 setosa 
13 4.8 3.0 1.4 0.1 setosa 
14 4.3 3.0 1.1 0.1 setosa 
15 5.8 4.0 1.2 0. 


N 


setosa 
16 5.7 4.4 1.5 0.4 setosa 
17 5.4 3.9 1.3 0.4 setosa 
18 5.1 3.5 1.4 0.3 setosa 
19 5.7 3.8 1.7 0.3 setosa 
Showing 1 to 19 of 150 entries 
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library (h20) 


cl-h20.init(max mem size = "2G", 
nthreads - 2, 
ip = "localhost", 
port - 54321) 


data(iris) 


summary (iris) 


iris d1 <- h2o.deeplearning(1:4,5, 
as.h2o(iris) ,hidden=c(5,5), 
export weights and biases=T) 

iris d1 

plot (iris dil) 


h20.weights (iris, dl, matrix id=1) 
h20.weights (iris d1, matrix id-2) 
h20.weights (iris d1, matrix id-3) 
h20.biases(iris dl, vector id-1) 
h20.biases(iris d1, vector id-2) 
h20.biases(iris d1, vector id-3) 


#plot weights connecting 'Sepal.Length' to first hidden neurons 
plotí(as.data.frame(h20.weights(iris d1, matrix id-1))[,1]) 
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现在 运行 代码 ， 理 解 如 何 使 用 添加 包 h2o 解 决 一 个 模式 识别 问题 。 


Qz: 在 进行 之 前 ， 有 必要 指出 在 R 上 运行 h2o 需 要 Java8。 事 先 验证 机 器 上 安装 的 Java 版 本 ， 并 最 终 
从 https://www.java.com/en/download/win10.jsp 下 载 Java 8 版 本 。 


下 图 显示 了 Oracle 网 站 的 Java 下 载 页 面 。 


(á| Download Java for Wind X 


€ Q (Y | @ Oracle Corporation [US] | https//www.java.com/en/download/win10.jsp 


Download Help 


Help Resources Download Java for Windows 
» What is Java? Recommended Version 8 Update 144 (filesize: 721.06 KB) 


» Remove Older Versions 
» Disable Java 
» Error Messages 


» Other Help Download 


Release date July 26, 2017 


Windows 64-bit Users 

Do you use both 32-bit and By downloading Java you acknowledge that you have read and 
: accepted the terms of the end user license agreement 

64-bit browsers? 

» FAQ about 64-bit Java for 

Windows 


Ww When your Java installation completes, you may need to restart your browser (close all browser 


windows and re-open) to enable the Java installation. 
Offline Installation 


Trouble downloading? » Installation Instructions 
Try the offline installer » System Requirements 


Not the right operating system? See all Java downloads. 


另外 ， 为 了 正确 地 安装 添加 包 h2o， 记 得 安装 以 下 支撑 添加 包 ， 它 们 都 可 以 从 CRAN 中 获取 : 
- RCud 

- bitops 

- rjson 

- jsonlite 

- statmod 


- tools 
在 成 功 地 安装 好 添加 包 h2o 后 ， 可 以 对 它 进行 加 载 : 


library (h2o) 


这 行 命 令 在 R 环 境 中 加 载 了 添加 包 。 返 回 得 到 以 下 信息 : 


Your next step is to start H20: 
> B26, 72S 
For H20 package documentation, ask for help: 
> ??h20o 
After starting H20, you can use the Web UI at http://localhost:54321 
For more information visit http://docs.h2o.ai 
cl-zh20.init(max mem size = "2G", 
nthreads - 2, 
ip = "localhost", 
port - 54321) 


按照 R 提 示 的 措 示 : 


cl=h20.init (max mem size = "2G", 
nthreads = 2, 
ip = "localhost", 
port = 54321) 


函数 h2o.init 初 始 化 了 hz2o5 引 警 ， 设 置 最 大 内 仔 为 2GB， 汉 核 并 行 。h2o 的 控制 全 初始 化 后 ， 一 旦 运行 这 一 脚本 ， 将 得 到 以 
B: 


Dii} 


M 


> cl-h2o.init(max mem size = "2G", nthreads = 2) 
H2O is not running yet, starting it now... 


Note: In case of errors look at the following log files: 

C: \Users\Giuseppe\AppData\Local\Temp\RtmpU3xPvT/h20 Giuseppe started from r 
(UE 
C:NUsersNGiuseppeMAppDataNLocalNTempNRtmpU3xPvT/h20 Giuseppe started from r 
.err 


java version "1.8.0 144" 
Java(TM) SE Runtime Environment (build 1.8.0 144-b01) 
Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode) 


Starting H20 JVM and connecting: . Connection successful! 


R is connected to the H2O cluster: 
H20 cluster uptime: 6 seconds 912 milliseconds 
H2O cluster version: 3.10.5.3 
H20 cluster version age: 2 months and 9 days 
H2O cluster name: H20 started from R Giuseppe woc815 
H2O cluster total nodes: 1 
H2O cluster total memory: 1.78 GB 
H2O cluster total cores: 4 
H2O cluster allowed cores: 2 
H20 cluster healthy: TRUE 
H20 Connection ip: localhost 
H20 Connection port: 54321 
H20 Connection proxy: NA 
H20 Internal Security: FALSE 
R Version: R version 3.4.1 (2017-06-30) 


一 旦 h2o 初 始 化 后 ， 控 制 台 可 以 通过 任意 浏览 器 输入 localhost:54321 后 查看 。 添 加 包 h2o 在 JVM 中 运行 ， 控 制 台 如 下 : 


€ H20 Flow x 


一 Q (y | © localhost:54321/flow/index.htm Qu yr 
H,O FLOW Flow v Cell * Data v Model v Score v Admin Help v» 
Untitled Flow 
DEA * ^93 03$ 5&9 Wb» » e » 
A 9 OUTLINE FLOWS CLIPS HELP 
? Help fi 
@ Assistance Using Flow for the first 
Routine Description time? 
Qj) importFiles Import file(s) into H20 [à Quickstart Videos 
BB getFrames Get a list of frames in H20 
Se splitFrame Split a frame into two or more frames 
% mergeFrames Merge two frames into one p — 
earn H20. 
& getModels Get a list of models in H20 
833 getGrids Get a list of grid search results in H2O STAR H2O ON GITHUB! 
4  getPredictions Getalist of predictions in H2O © Star 2,399 
E cetJobs Get a list of jobs running in H2O 
© buildModel Build a model GENERAL 
© importModel Import a saved model e Flow Web Ul... 
b predict Make a prediction e ... Importing Data 
e ... Building Models 
e ... Making Predictions 
e ...Using Flows " 
@ Ready Connections: © H,O 


控制 从 直观 显示 ， 并 提供 与 h203 


data (iris) 
summary (iris) 


擎 进行 交互 的 接口 。 我 们 可 以 在 这 上 面 训 练 和 测试 模型 ， 并 进行 预测 。 第 一 个 文本 框 (市 
CS 标签 ) 允许 我 们 输入 执行 的 例 程 。 命 令 assist 给 出 可 用 的 例 程 列表 。 现 来 继续 分 析 一 下 代码 : 


第 一 行 命令 加 载 了 数据 集 iris 〈 它 包含 于 数据 集 添加 包 中 ) ， 并 将 它 保存 在 一 个 给 定 的 数据 框 中 ， 然 后 使 用 函数 summary 生 


成 数据 集 的 汇总 结果 。 该 函数 调用 的 方法 依赖 于 第 一 个 参数 的 类 别 。 结 果 展示 如 下 


> summary (iris) 


Sepal.Length Sepal.Width Petal.Length Petal.Width 
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.. 100 
lst Qu.:5.100 lst Qu.:2.800 lst Qu.:1.600 lst Qu.:0.300 
Median :5.800 Median :3.000 Median :4.350 Median :1.300 
Mean :5.843 Mean :3.057 Mean t3. 490 Mean :1.199 
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 
Max. :7.900 Max. :4.400 Max. :6. 900 Max. :2.500 

Species 
setosa :50 
versicolor:50 
virginica :50 


现 分 析 一 下 下 一 行 代码 : 


iris d1 <- h2o.deeplearning(1:4,5, 
as.h2o(iris),hidden-2c(5,5), 
export weights and biases-T) 


为 数 h2o.deeplearning 是 h2o 中 一 个 重要 的 为 数 ， 可 以 用 于 多 种 操作 。 这 个 函数 使 用 CPU 建立 DNN 模 型 ， 在 H2OFrame 上 


建立 一 个 前 馈 多 层 ANN。 参 数 hidden 用 于 设置 隐 合 层 的 个 数 以 及 每 个 隐 合 层 的 神经 元 个 数 。 在 我 们 的 案例 中 ,我 们 设置 了 一 个 
包含 两 个 隐 含 层 、 每 个 隐 仿 层 包 含 5 个 神经 元 的 DNN。 最 后 ， 参 数 export_weights_and_biases 返 回 H2OFrame 中 存储 的 权重 和 
偏 舌 且 可 以 像 其 他 数据 框 一 样 被 访问 以 供 进一步 处 理 。 


在 进行 代码 分 析 之 前 ， 应 该 潼 清 以 下 内 容 。 细 心 的 读者 可 能 会 问 ， 我 们 应 该 基于 何 种 方法 评估 应 选取 的 隐 含 层 个 数 和 每 个 隐 

含 层 中 的 神经 元 个 数 。 不 幸 的 是 ， 没 有 一 种 精确 的 准则 或 是 一 个 数学 公式 告诉 我 们 对 于 一 个 具体 问题 如 何 决定 合适 的 数量 。 这 是 
因为 每 个 问题 都 是 不 同 的 ， 而 每 个 神经 网 络 都 以 一 种 不 同 的 方式 来 近似 一 个 系统 。 因 此 ， 是 什么 造成 了 两 个 模型 之 间 的 差异 ? 答 
案 很 明显 也 很 清晰 : 研究 者 的 经 验 。 

根据 笔者 在 数据 分 析 方 面 丰富 的 经 验 ， 给 出 的 建议 是 ， 尝 试 、 尝 试 、 再 尝试 。 实 验 活动 的 秘密 就 在 于 此 。 在 神经 网 络 案例 
中 ， 这 就 导致 了 尝试 建立 不 同 的 神经 网 络 ， 然 后 评估 它们 的 性 能 。 比 如 ， 在 我 们 的 案例 中 ， 可 以 先 建 立 一 个 包含 两 个 隐 含 层 、 每 
个 隐 含 层 有 100 个 神经 元 的 神经 网 络 ， 然 后 逐步 减少 神经 元 的 个 数 ， 最 终 达 到 我 在 案例 中 提出 的 结果 。 这 一 过 程 可 以 在 R 中 使 用 
循环 结构 自动 生成 ， 

然而 ， 有 些 问题 还 是 可 以 进行 讨论 的 ， 例 如 ， 为 了 选择 最 佳 的 神经 元 数量 ， 我 们 需要 知道 : 

- 神经 元 的 个 数 过 少 会 导致 系统 的 高 误差 ， 因 为 预测 因素 对 于 少量 神经 元 来 说 可 能 过 于 复杂 以 至 于 难以 捕捉 。 

“ 大 量 神 经 元 可 能 对 训练 数据 造成 过 拟 合 ， 而 不 能 很 好 地 泛 化 。 

: 每 个 隐 含 层 的 神经 元 个 数 应 该 接近 输入 层 和 输出 层 的 神经 元 个 数 ， 可 能 是 两 者 的 均值 。 


. 每 个 隐 含 层 的 神经 元 个 数 不 应 该 超过 输入 层 神经 元 个 数 的 两 倍 ， 否 则 可 能 会 严重 过 拟 合 。 


回 到 代码 : 
iris dl 


在 R 中 ， 这 行 代码 打印 出 了 所 建立 模型 的 特征 的 简要 朱 述 ， 如 下 图 所 示 。 


> iris_dl 
Model Details: 


H20MultinomialModel: deeplearning 
Model ID: DeepLearning_model_R_1504963874193_14 


Status of Neuron Layers: predicting Species, 3-class classification, multinomial distribution, CrossEntropy loss, 73 weights/biases, 4,5 KB, 1.500 training samples, mini-batc 
h size 1 


layer units type dropout 11 12 mean rate rate rms momentum mean weight weight rms mean bias bias. rms 
1 1 E Input 0.00 X 
2 2 5 Rectifier 0.00 % 0.000000 0.000000 0.002308 0.001675 0.000000 -0.094025 0.463426 0.531955 0.115960 
3 3 5 Rectifier 0.00 % 0.000000 0.000000 0.005277 0.006356 0.000000 -0.009886 0.411969 1.106424 0.372346 
4 4 3  Softmax 0.000000 0.000000 0.002974 0.002250 0.000000 0.707930 1.763234 -0.032859 0.108779 


H20MultinomialMetrics: deeplearning 
** Reported on training data. ** 
** Metrics reported on full training frame ** 


Training Set Metrics: 
一 一 一 一 一 一 一 一 一 二 二 二 二 一 二 一 


Extract training frame with '"h20.getrFrame("iris")" 

MSE: (Extract with 'h20.mse') 0.06007149 

RMSE: (Extract with '"h20.rmse') 0.2450949 

Logloss: (Extract with '"h20.1logloss') 0.2303247 

Mean Per-Class Error: 0.02666667 

Confusion Matrix: Extract with '"h20.confusionMatrix(«model»,train = TRUE) ) 


Confusion Matrix: Row labels: Actual class; Column labels: Predicted class 


setosa versicolor virginica Error Rate 
setosa 50 0 0 0.0000 = 0 / 50 
versicolor 0 48 2 0.0400 = 2 / 50 
virginica 0 2 48 0.0400 = 2 / 50 
Totals 50 50 50 0.0267 = 4 / 150 


Hit Ratio Table: Extract with 'h20.hit ratio table(«model»,train = TRUE)' 


Top-3 Hit Ratios: 
k hit ratio 


11 0.973333 
22 1.000000 
33 1.000000 


ff EE, JAAMME OAE NITRE. MKE— Pill 


练 过 程 是 如 何 进行 的 : 


plot(arais cl) 


ZXplotvalFBHZOR BASS, EIA DAA. SIRT ERD RETO AS Pa AWAY, SU REÉdBE. 


Training Scoring History 


training_classification_error 
0,170 0.175 0,180 


0.165 


0,160 


pakke zn T yl SSERERlepochByXz, JÆ, epoch, ERE, i= hE ARAE 
(streamed) 的 次 数 可 以 是 小 数 ， 默 认 设置 为 10: 


h2o.weights (iris dl, matrix id-1) 
h20.weights (iris d1, matrix id-2) 
h20.weights(iris dl, matrix id-3) 


h20.biases(iris dl, vector id-1) 
h20.biases(iris dl, vector id-2) 
h20.biases(iris dl, vector id-3) 


[ORBE Nf 18) RJ TED 3882551 5 EINE, MRA: 


> h20.weights (iris d1, matrix id-1) 

Sepal.Length Sepal.Width Petal.Length  Petal.Width 
1 -0.013207575 -0.06818321 -0.02756812 0.092810206 
2 0.036195096 0.02568028 0.05634377 0.035429616 
3 -0.002411760 -0.11541270 0.08219513 0.001957144 
4 0.091338813 -0.03271343 -0.25603485 -0.205898494 
6 —-0.151234403 0.01785624 -0.11815275 -0.110585481 
[200 rows x 4 columns] 


> h20.biases(iris dl, vector id-1) 
C11 0.48224932 0.47699773 0.48994124 0.49552965 0.48991496 0.4739439 
[200 rows x 1 column] 


由 于 篇 幅 限 制 ， 现 仅 查 看 setosa 类 别 的 权重 和 偏差 。 在 下 面 的 代码 中 ， 青 次 使 用 遂 数 plot: 


plot (as.data.frame(h2o.weights(iris_d1l, matrix id-1))[,1]) 


命令 行 绘制 了 第 一 个 隐 含 层 神 经 元 的 权重 和 莹 片 长 度 的 天 系 ， 如 下 图 所 示 。 


0.15 
| 


0.10 
| 


as.data frame(h2o.weights(iris_d1, matrix id = 1))[, 1] 
-0.05 0.00 
1 


-0.10 


-0.15 


接 下 来 ， 让 我 们 花 一 点 时 间 来 分 析 一 下 结果 。 特 别 地 ， 我 们 重 现 了 刚刚 在 模型 信息 汇总 屏幕 中 看 到 的 混淆 和 矩阵 。 为 了 调用 混 
淆 矩阵， 可 以 在 下 面 代 码 中 使 用 函数 h2o.confusionMatrix， 它 将 从 h2o 对 象 中 检索 单个 或 多 个 混淆 矩阵 。 


> h20.confusionMatrix(iris dl) 
Confusion Matrix: Row labels: Actual class; Column labels: Predicted class 


setosa versicolor virginica Error Rate 
setosa 50 0 00.0000 = 0/ 50 
versicolor 0 48 20.0400 = 2 / 50 
virginica 0 2 48 0.0400 = 2 / 50 
Totals 50 50 50 0.0267 = 4 / 150 


GRISEA ATA, ALAS SATE aKa T PERI, (MULT AT SUR. KERR ORs: 
versicolor 和 virginica。 然 而 ， 类 别 setosa 在 所 有 :50 个 样本 中 都 得 到 了 正确 分 类 。 为 什么 会 出 现 这 样 的 情况 ”为 了 便于 理解 ， 现 
在 看 一 下 原始 数据 。 在 多 元 数据 的 案例 中 ， 做 到 这 一 步 的 最 好 方法 是 对 从 数据 集中 选 出 的 变量 绘制 一 个 散 点 图 算 阵 : 


> pairs(iris[1:4], main = "Scatterplot matrices of Iris Data", pch = 21, bg 
= c("red", "green3", "blue") [unclass (iris$Species) ]) 


结果 如 下 图 所 示 。 


Scatterplot matrices of Iris Data 


Petal.Length 


Petal. Width 


现 详细 分 析 刚 刚 得 到 的 绘图 结果 。 变 量 名 被 写 在 左上 和 角 到 右 下 角 的 对 角 线 上 。 然 后 ， 绘 制 每 个 变量 。 例 如 ， 第 一 列 中 的 第 二 


|' Se 5m. 
张 图 中 ， 绘 制 了 Sepal.Length 和 Sepal.Width 之 间 的 天 系 ，X 轴 代表 Sepal.Length，Y 轴 代表 Sepal.Width。 同 样 的 图 被 绘制 在 第 
二 列 的 第 一 张 图 中 。 在 本 质 上 ， 整 个 散 点 图 右上 角 的 框 是 左下 和 角 的 图 的 镜像 。 


从 刚刚 看 到 的 图 分 析 可 以 看 出 ， 类 别 versicolor 和 和 virginica 显 示 出 重 匡 的 边界 。 这 有 助 于 我 们 理解 模型 试图 分 类 该 区 域 的 花 
时 可 能 会 产生 错误 。 可 以 看 到 setosa 类 别 与 其 他 类 别 有 很 清晰 的 边界 ， 因 此 没有 出 现任 何 


NI ++ * 
分 类 错误 。 


根据 花 泊 和 莹 片 的 大 小 来 评估 模型 在 对 花 章 种 类 分 类 时 的 准确 性 : 


> h20.hit ratio table(iris. dl) 
Top-3 Hit Ratios: 
k hit ratio 
t L 0.973333 
2 2 1.000000 
3 3 1.000000 


结果 表明 ， 基 于 第 一 个 假设 的 模拟 模型 以 97% 的 准确 度 对 物种 进行 了 排序 。 可 以 说 ， 这 是 一 个 很 好 的 结果 ， 模 型 对 数据 进行 


了 很 好 的 拟 合 。 但 是 如 何 度量 这 一 特征 呢 ? 一 种 获得 更 好 的 拟 合 的 方法 是 计算 决定 系数 (R 方 ) 。 为 了 在 H2O 中 计算 R 方 ， 可 以 
使 用 为 数 h2o.r2 : 


^ h2o.frzi(iiri8 dl) 
[1] 0.9596034 


现在 ， 来 理解 计算 的 内 容 ， 以 及 如 何 阅 读 结果 。R 万 度量 模型 预测 数据 的 效果 ， 取 值 在 0 到 1 之 间 。 决 定 系 数 的 值 越 大 ， 模 型 
预测 数据 的 效果 越 好 。 


这 里 得 到 的 R 方 的 值 为 0.96， 与 乙 前 所 闹 的 一 致 ， 这 是 一 个 很 好 的 结果 。 为 了 确认 这 一 氮 ， 需 要 将 它 与 另 一 个 模拟 异型 的 绪 
果 进 行 比较 。 因 此 ， 对 同样 的 数据 (数据 集 iris) 建立 一 个 线性 回归 模型 。 


为 了 建立 一 个 线性 回归 模型 ， 可 以 使 用 函数 glm。 该 函数 用 于 拟 合 广义 线性 模型 ， 通 过 给 出 线性 预测 器 的 符号 摘 述 和 误差 分 
PHAR IS AE Ate : 


m-iris.lm <- h2o.glm(x-2:5,y-1,training frame-as.h2o(iris)) 


现在 计算 模型 的 决定 系数 : 


> h2o0.r2(m) 
[1] 0.8667852 


可 以 在 基于 DNN 的 模型 和 线性 回归 模型 之 间 进 行 比较 。DNN 得 到 了 0.96 的 R 方 ， 而 回归 模型 得 到 了 0.87 的 R 方 。 很 明 


DNN 的 性 能 更 好 。 


最 后 ， 分 析 参 数 对 于 神经 网 络 专家 来 说 很 重要 ， 如 下 表 所 示 。 


参数 


model 1d 


standardize 


activation 


hidden 

epochs 

adaptive rate 

rho 

rate annealing 

rate decay 

input dropout ratio 
hidden dropout ratios 
11 

12 

initial weights 


initial biases 


loss 


distribution 


score training samples 


score validation samples 


描述 

包含 构建 模型 时 使 用 的 预测 变量 的 名 称 或 索引 的 回 量 。 如 果 缺 少 x， 则 使 用 
ER y 之 外 的 所 有 列 

模型 中 啊 应 变量 的 名 称 或 索引 。 如 打数 据 不 包含 表 头 ， 则 为 第 一 列 索引 ， 从 
左 到 右 递增 〈 啊 应 变量 必须 是 整数 或 分 类 变量 ) 

模型 的 目标 id。 如 果 没 有 指定 ， 会 自动 生成 

逻辑 明 数 。 如 有 果 司 用 ， 则 目 动 标准 化 数据 。 如 条 蔡 用 ， 用 户 必 须 提 供 适 当 比 
例 的 输入 数据 。 默 认为 TRUE 

iU EE. XE Tanh, TanhWithDropout, Rectifier, RectifierWithDropout , 
Maxout, MaxoutWithDropout ZZ—. $AiA7J Rectifier 


隐 含 层 大 小 (例如 [100，100])。 默 认为 [200，200] 

数据 集 迭 代 (streamed) 的 次 数 ， 可 以 是 小 数 。 默 认为 10 

逻辑 参数 ， 用 于 指定 目 适 应 学 习 率 。 默 认为 TRUE 

目 适 应 尝 习 率 时 间 台 减 因 于 《类 似 于 和 宛 验 更 新 )。 默 认为 0.99 

学 习 率 退火 ， 由 rate/(1+rate annealing*samples) 给 定 。 默 认为 1e-06 

层 之 间 的 学 习 率 衰减 因 了 于 (第 W 层 : rate*rate decay^(n-1))。 默 认为 1 

输入 层 丢 弃 率 (可 以 改进 沁 化 ， 尝 试 0.1 BK 0.2). RUDY 0 

隐 含 层 丢 茎 率 可 以 改善 沁 化 。 为 每 个 隐 含 层 指定 一 个 值 ， 默 认为 0.5 

L1 正则 化 可 以 增加 稳定 性 和 提高 泛 化 能 力 ， 使 得 许多 权重 变 为 0。 默认 为 0 
L2 正则 化 可 以 增加 稳定 性 和 提高 泛 化 能 力 ， 使 许多 权重 变 得 很 小 。 默 认为 0 
H2OFrame ID 的 列表 ， 用 于 初始 化 该 模型 的 权重 矩阵 

H2OFrame ID 的 列表 ， 用 于 初始 化 该 模型 的 俩 差 问 量 


tit X pK w^ Zi HE Automatic, CrossEntropy, Quadratic, Huber, Absolute, 
Quantile 之 一 。 默 认为 Automatic 


4] AG PABA AUTO, bernoulli, multinomial, gaussian, poisson, gamma, 
tweedie, laplace, quantile, huber 之 一 。 默 认为 AUTO 


用 于 评分 (全 部 为 0 ) 的 训练 样本 数 。 默 认为 10 000 
用 于 评分 (全 部 为 0 ) 的 验证 集合 样本 数 。 上 默认 为 0 


参数 
classification stop 


regression stop 


stopping rounds 


max runtime secs 
diagnostics 


fast mode 

replicate training data 
single node mode 
shuffle training data 


missing values handling 


quiet mode 
verbose 


autoencoder 


export weights and biases 


mini batch size 


还 有 一 些 其 他 h2o 人 在 R 中 用 于 深度 学 习 的 函数 。 


函数 
predlct.H2Omodel 


h20.deepwater 


as.data.frame.H2OFrame 


h20.confusionMatrix 
print.H2OFrame 
h20.saveModel 
h20.importFile 


描述 
训练 数据 分 类 的 误差 分 数 的 停止 标准 (一 1 为 禁用 )。 默 认为 0 
训练 数据 回归 误差 (MSE) 的 停止 标准 (71 为 禁用 )。 上 默认 为 le-06 


基于 stopping metric 收 钱 的 早期 停止 。 如 果 在 k:stops_rounds 的 评分 事件 中 
stopping metric 的 长 度 的 简单 移动 平均 值 没有 提升 ， 则 终止 (0 为 禁用 )。 默 
WEN 5 

模型 训练 的 最 大 允许 运行 时 间 ( 秒 )。 使 用 0 来 禁用 。 默 认为 0 

为 隐 含 层 局 用 诊断 。 默 认为 TRUE 

启用 快速 模式 〈 反 向 传播 中 的 最 小 近似 值 )。 默 认为 TRUE 


将 整个 训练 数据 集 复 制 到 每 个 节点 上 ， 以 加 快 对 小 数据 集 的 训练 。 
TRUE 


在 单个 节点 上 运行 ， 以 便 对 模型 参数 进行 微调 。 

局 用 训练 数据 的 混 洗 (如 果 训 练 数 据 被 复制 ， FFA. train samples per iteration 
接近 #nodes x 机 ows， 则 建议 使 用 ， 否 则 使 用 balance classes), RA FALSE 

处 理 缺 失 值 。 必 须 是 MeanImputation 、Skip 之 一 。 默 认为 MeanImputation 

局 用 安静 模式 以 减少 输出 到 标准 输出 。 默 认为 FALSE 

将 评分 历史 记录 打印 到 控制 台 FRR AY GBM, DRF 和 XGBoost， 
度 学 习 每 个 epoch 的 度量 标准 )。 默 认为 FALSE 

H afa ds HU SEE. AAN FALSE 

是 否 将 神经 网 络 权 重 和 偏差 输出 到 H2OFrame。 默 认为 FALSE 

小 批量 的 太 寸 〈 信 越 小 ， 拟 合 越 好 ， 值 越 大 ， 可 以 提速 并 更 好 地 泛 化 )。 
^1 


SA A Jy 


BRU JJ FALSE 


VI BR 


默认 


一 些 音 用 的 函数 如 下 。 


描述 

返回 一 个 H2OFrame 对 象 ， 包 含 概 率 和 默认 的 预测 值 

使 用 多 个 本 地 GPU 后 端 机 建立 一 个 深度 学 习 模 型 。 在 包含 多 个 数据 
源 的 H2OFrame 中 建立 DNN 

将 H20Frame 转 为 数据 框 

返回 一 个 分 类 模型 的 泥 洒 矩阵 

打印 H2OFrame 

将 h2o 模型 对 象 保存 到 磁盘 

将 文件 导入 h20 


3.5 ”使 用 H2O 建 立 深 度 目 动 编码 器 


目 动 编码 器 是 基于 神经 网 络 的 无 监督 学 习 方 法 。 第 7 章 


样 一 个 模型 ， 


会 详细 介绍 。H20O 可 以 使 用 深度 目 动 编码 器 检测 异 剃 值 。 为 了 训练 这 


可 以 使 用 同样 的 函数 h2o.deeplearning0， 对 其 中 的 参数 进行 一 些 改变 : 


anomaly model <- h20o.deeplearning (1:4, 
training frame - as.h2o(iris), 
activation = "Tanh", 
autoencoder = TRUE, 
hidden = c(50,20, 50), 
sparse = TRUE, 
11 = 1e-4, 
epochs = 100) 


参数 autoenconder=TRUE 将 deeplearning 方 法 设置 为 使 用 自动 编码 器 技术 的 无 监督 学 习 方法 。 这 里 仅 使 用 训练 数据 ， 不 
含 测 试 集 和 标签 。 通 过 制定 参数 autoenconder 来 使 用 深度 自动 编码 器 ， 而 不 是 一 个 前 馈 神 经 网 络 。 


可 以 选择 不 同 层 的 隐 合 神经 元 个 数 。 如 果 选 取 一 个 整数 值 ， 则 称 之 为 朴素 自动 编码 器 (naive autoencoder) 。 


3.6 小结 


深度 学 习 是 从 图 像 检 测 到 语音 识别 和 和 人工 智 能 相关 活动 的 重要 课题 。 市 场 上 有 许多 用 于 深度 学 习 的 产品 或 添加 包 ， 包 括 


Keras、TensorFlow、H2O 等 。 


在 这 一 章节 ， 我 们 学 习 了 深度 学 习 的 基础 、 多 种 DNN、 最 重要 的 深度 学 习 算法 和 深度 学 习 的 基本 工作 流程 ， 探 索 了 R 中 不 同 
的 用 于 处 理 DNN 的 添加 包 。 


为 了 理解 如 何 建立 和 训练 一 个 DNN ， 我 们 分 析 了 一 个 使 用 添加 包 neuralnet 执 行 DNN 的 例子 ; 学 习 了 如 何 通过 各 种 可 行 的 
技术 对 数据 进行 标准 化 来 消除 数据 的 单位 ， 从 而 能 够 简 蛙 地 从 不 同 的 角度 比较 数据 ;也 看 到了 如 何 将 数据 划分 为 神经 网 络 中 的 训 
练 集 和 测试 集 ， 还 学 习 了 使 用 函数 neuralnet 建 立 和 训练 一 个 多 层 和 神经 网 络 。 基 于 此 ， 我 们 理解 了 如 何 使 用 训练 得 到 的 神经 网 络 
进行 预测 ， 并 学 习 使 用 疡 清和 矩阵 评估 模型 的 性 能 。 


我 们 看 到 了 添加 包 h2o 中 的 一 些 基 础 内 容 。 总 的 来 说 ， 添 加 包 h2o 是 一 个 高 度 用 户 友好 的 添加 包 ， 可 以 用 于 训练 前 馈 神 经 网 
络 或 深度 目 动 编码 器 。 它 支持 分 布 式 计算 ,并 提供 一 个 网 页 交互 界面 。 添 加 包 h2o 和 R 中 的 其 他 添加 包 一 样 ， 使 我 们 能 够 进行 各 
种 DNN 的 建立 和 处 理 。H2O 的 强大 功能 可 以 通过 添加 包 中 的 各 种 立 数 实现 。 


在 下 一 草 中 ， 我 们 将 理解 什么 是 感知 机 ， 以 及 使 用 基本 的 感知 机 可 以 建立 何 种 应 用 ;学 习 R 中 一 个 和信 单 的 感知 机 执行 函数 。 
同时 ， 还 将 学 习 如 何 训练 和 建立 一 个 MLP， 探 索 一 个 线性 可 分 离 分 类 器 。 


第 4 章 ”感知 神经 网 络 建 模 一 一 基本 模型 


目前 为 止 ， 我 们 已 经 学 习 了 神经 网 络 的 基础 知识 以 及 学 习 部 分 是 如 何 工作 的 。 在 这 一 章 中 ， 我 们 来 看 一 下 昼 经 网 络 结构 的 基 
本 和 简单 的 形 陈 一 感知 机 。 


感知 机 (perceptron) 定义 为 神经 网 络 的 基本 构建 块 。 在 机 器 学 习 中 ， 感 知 机 是 二 值 分 类 器 的 有 监督 学 习 算 法 。 它 们 将 输 


出 分 类 为 两 种 取 值 : TRUE/FALSE 或 1/0。 


ARAH: 
感知 机 的 概念 


简单 的 感知 机 实现 函数 
- 多 层 感 知 机 (Multi-Layer Perceptron, MLP) 


在 本 章 结束 前 ， 我 们 将 了 解 感知 机 的 基本 概念 以 及 它们 如 何 用 于 昼 经 网 络 算法 中 ; 也 将 研究 线性 可 分 离 分 类 器 ;还 将 在 R 环 
境 中 学 习 一 个 简单 的 感知 机 实现 六 数 ， 以 及 了 解 如 何 训练 和 建立 一 个 MLP。 


4.1 BRINEM 


感知 机 可 以 理解 为 任何 需要 多 个 输入 并 产生 一 个 输出 的 和 东西。 这 是 神经 网 络 最 简单 的 形式 。 感 知 机 由 Frank Rosenblatt F 
1958 年 提出 ， 是 一 种 具有 输入 层 和 输出 层 以 及 基于 最 小 化 误差 的 学 习 规则 的 实体 。 这 种 称 为 误差 反 回 传播 (error 
backpropagation) 的 学 习 函 数 根据 相对 于 给 定 输入 的 实际 输出 ， 改 变 连接 权重 ( 突 触 ) ， 即 实际 输出 与 期 望 输出 之 间 的 到 


E 
«to 


巨大 的 热情 推动 了 控制 论 产业 诞生 。 但 是 后 来 ， 科 学 家 Marvin Minsky 和 Seymour Papert (1969) 证 明了 感知 机 的 限制 。 
事实 上 ， 经 过 适当 的 训练 之 后 ， 感 知 机 仪 能 识别 出 线性 可 分 的 浮 数 。 例 如 ，XOR 多 辑 冰 数 不 能 由 感知 机 来 实现 。 


下 图 展示 了 Cornell 航 空 实验 室 (Cornell Aeronautical Laboratory, 1957-1959) 的 Frank Rosenblatt 在 Mark | 感知 机 分 
类 器 上 的 研究 。 


é > 


T 


或 计 ， 一 个 多 层 的 感知 机 网 络 可 以 解决 更 复杂 的 问题 ， 但 是 越 来 越 复杂 的 训练 使 得 这 条 路 变 得 不 切实 际 。 直 到 最 近 我 们 才 开 
始 考虑 这 个 操作 实体 的 效用 。 
在 单一 形式 中 ， 感 各 机 由 一 个 神经 元 单元 接收 输入 并 产生 一 组 输出 。 


例如 ， 先 来 看 看 下 面 的 图 像 。 


Xo 
X1 
Wo 
Wy 
X2 一 一 __W2 | | y y tl, y>0 
X3 
Wn y=} Wii 
Xn 


在 这 里 ，x1，x2，…，xn 代 表 一 组 输入 ，x0 代 表 偏 关 。x0 补 设置 为 1， 输 出 y 是 wixi 的 点 积 之 和 。 在 点 积 求 和 之 后 使 用 函数 


.如果 y>0， 则 输出 为 1。 
如果 y 和 0， 则 输出 为 -1。 
偏 闫 为 常数 ,与 权重 有 wo 天 。 这 个 感知 机 水 数 作为 一 个 线性 浮 数 分 类 器 ， 将 输出 分 力 类 别 -1 或 +1。 


请 注意 ， 这 里 没有 反 回 传播， 权重 更 新 通过 我 们 即将 看 到 的 步骤 更 新 。 这 里 有 一 个 决定 输出 值 的 国 值 设 置 。 输 出 是 二 值 输出 
(-1 或 +1) ， 可 以 设置 为 0 或 1。 


因此 ， 感 知 机 是 直接 进行 预测 的 简单 分 类 阔 数 。 函 数 的 核心 在 于 权重 ， 以 及 如 何 更 新 权重 以 最 好 地 预测 y。 


这 类 感知 机 是 简单 感知 机 (simple perceptron) 或 基本 感知 机 (basic perceptron) ， 输 出 是 二 值 的 : 0/1、 真 / 假 、+1/- 


还 有 另 一 种 类 型 的 感知 机 一 一 多 分 类 感知 机 (multi-class perceptron) ， 它 可 以 给 动物 许多 可 能 的 分 类 标签 ,例如 狗 、 猫 


下 图 显示 了 一 个 简单 的 感知 机 架构 与 多 分 类 感知 机 架构 的 比较 。 
曾 单 感知 机 多 分 类 感知 机 


0 d 
0 e 
6 «9 o 
0 e 
0 e 


通过 修改 权重 向 量 ， 我 们 可 以 修改 感知 机 的 输出 来 提高 学 习 或 存储 性 能 。 例 如 ， 可 以 尝试 指示 一 个 感知 机 ， 使 得 给 定 一 个 输 
入 xX， 输出 y 尽 量 接近 给 定 的 先 验 选择 的 y 实 际 值 。 然 而 ， 一 个 简单 感知 机 的 计算 能 力 是 有 限 的 ， 并 且 可 以 获得 的 性 能 在 很 大 程度 
上 取决 于 输入 的 选择 和 想 要 执行 的 肖 数 的 选择 。 


实际 上 ， 输 入 可 以 被 限制 为 所 有 可 能 输入 的 子 集 ， 或 者 可 以 根据 某 个 预定 的 概率 分 布 被 随机 地 提取 。 在 较 小 的 程度 上 上， 这样 
一 个 系统 的 性 能 还 取决 于 实际 输出 和 预期 输出 乙 间 的 距离 是 如 何 量化 的 。 


一 旦 确定 了 学 习 的 问题 ， 则 可 以 尝试 为 给 定 的 问题 找到 最 优 的 权重 分 配 。 


4.2 简单 感知 机 一 一 一 个 线性 可 分 离 分 类 器 


正如 我 们 所 看 到 的 ， 一 个 简单 的 感知 机 是 一 个 单 层 神 经 元 ， 它 是 一 个 线性 分 类 器 ， 只 能 产生 两 种 输出 模式 的 神经 元 ， 可 以 在 
激活 (active) 或 非 激活 (inactive) 状态 下 合成 。 其 决策 规则 是 通过 阅 值 (threshold) 行为 来 实现 的 : 如 果 组 成 输入 层 的 单个 
神经 元 的 加 权 总 和 超过 了 一 定 的 阅 值 ， 则 输出 神经 元 将 采用 输出 模式 激活 。 反 之 ， 输 出 神经 元 将 保持 无 效 状 态 。 


如 前 所 述 ， 输 出 是 weights*inputs 的 加 总 以 及 六 数 对 其 的 应 用 结果 。 输 出 为 +1 (y>0) 或 -1 (ysO) ， 如 下 所 示 : 


-], wex+b< 0 


l wex+b>0 


可 以 在 这 里 看 到 线性 交互 ， 输 出 y 线 性 依赖 于 输入 。 


与 大 多 数 昼 经 网 络 模型 一 样 ， 即 使 在 感知 机 中 ， 也 可 以 实现 基于 突 触 连接 权重 的 修改 的 学 习 阔 数 。 在 训练 阶段 开始 时 ， 感 知 
机 突 触 连 接 的 权重 w 完 全 是 随机 的 。 对 于 训练 ， 我 们 有 一 些 相对 的 、 正 确 的 、 分 类 的 例子 。 网 络 依次 呈现 对 不 同 案例 进行 分 类 ， 
网 络 每 处 理 一 次 惑 给 出 一 次 啊 应 〈 大 于 国 值 或 小 于 国 值 ) 。 如 果 分 类 正确 (网 络 输出 与 预期 相同 ) ， 则 训练 算法 不 做 任何 改变 。 
相反 ， 如 果 分 类 不 正确 ， 则 算法 改变 突 触 权重 以 尝试 改善 网 络 的 分 类 性 能 。 


简单 感知 机 是 在 线 学 习 器 。 权 重 更 新 通过 以 下 步骤 进行 : 
1) 获得 x 和 输出 标签 y。 

2) 对 f(X) 更 新 w。 

3) 如 果 f(x)=y， 标 记 为 完成 ， 否 则 ， 进 行 修正 。 
4) 基于 误差 调整 得 分 : 

f(x)=sign(sum of weights*inputs) 

如 果 y=+1 且 f(x)=-1，w*x 太 小 ， 使 误差 变 得 更 大 
如 果 y=-1 且 f(x)=+1，w*x 太 大 ， 使 误 牵 变 得 更 小 
5) 应 用 以 下 规则 : 

使 Ww=w-x， 如 果 f(f)=+1 且 y=-1 

使 Ww=w+x， 如 果 f(f)=-1 且 y=+1 

使 Ww=w， 如 果 f(x)=y 


或 简单 地 ，w=w+yx， 如 果 f(x)!=y 


6) 重复 第 3 ~ 5 步 ， 直 到 f(x)=y。 


感知 机 保证 满足 所 有 的 数据 ， 但 只 适用 于 具有 单个 神经 元 的 二 值 分 类 器 。 在 第 5 步 


同样 ， 偏 差 被 更 新 为 b=b+ay。b 实 际 上 是 w0。 


如 果 布 尔 函 数 (boolean function) 是 一 个 线性 闪 值 函数 ( 即 ， 如 果 它 是 线性 可 分 离 的 ) , 


到 一 组 能 够 以 有 限 数 量 的 步骤 实现 的 权重 。 


这 个 定理 被 称 为 感知 机 定理 (perceptron theorem) ， 也 适用 于 全 局 规则 的 情况 ， 


单个 输入 向 量 , 但 是 取决 于 感知 机 在 整个 输入 集合 上 的 行为 向 量 。 


我 们 刚刚 提 到 了 线性 可 分 离 国 数 ， 但 它 是 什么 意思 呢 ?下 一 节 会 介绍 。 


4.3 RIENA 


当 一 组 输出 值 可 以 被 直 续 分割 时 ， 输 出 值 被 认为 是 线性 可 分 离 的 。 在 几何 上 ， 这 质 述 了 


需要 的 正 输出 与 需要 的 负 输 出 分 开 的 情况 ， 如 下 图 所 示 。 


， 提 出 了 一 个 叫 作 学 习 率 (learning 
rate) 的 术语 。 它 有 助 于 模型 收敛 。 在 第 5 步 中 ， 如 果 f(x)!=y，w 写 为 v=w+aQayx， 其 中 a 是 选择 的 学 习 率 。 
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在 输入 的 同 量 


空间 中 有 一 个 超 平面 将 


X | 


在 这 里 ,分 类 器 的 一 边 预测 属于 一 个 类 ， 而 另 一 边 了 预测 属于 另 一 个 不同 的 类 。 布 尔 神 经 元 的 决策 规则 对 应 于 由 超 平 面 操 作 的 
输入 特征 空间 的 分 解 。 


如 果 除了 输出 神经 元 之 外 ， 甚 至 神经 网 络 的 输入 都 是 布尔 型 的 ， 那 么 使 用 神经 网 络 执行 分 类 相当 于 确定 输入 同 量 的 布尔 涪 
数 。 议 函数 在 超过 国 值 时 取 值 1， 人 否则 为 0。 例 如 ， 使 用 两 个 输入 和 和 输出 布尔 神经 元 ， 可 以 以 非 音 直观 的 方式 表示 AND 和 OR 函 


数 。 


事实 上 ,与 门 (AND) 和 或 门 (OR) 是 线性 可 分 离 的 。 我 们 在 实践 中 进行 测试 ， 首 先 在 表格 中 列 出 可 能 的 情况 ， 然 后 在 二 


维 平 面 上 表示 它们 。 


秆 先 测 试 一 人 AND 阔 数 。 在 下 表 中 列 出 了 所 有 可 能 的 逻辑 结果 。 


超 平 面 上 的 所 有 点 假定 为 1 或 TRUE， 而 下 面 的 点 假定 为 0 或 FALSE。 
现在 测试 OR 了 浮 数 。 在 下 表 中 列 出 了 所 有 可 能 的 逻辑 结果 。 


X1 
] 
] 
0 
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下 图 展示 了 二 维 平面 中 的 所 有 四 种 情况 。 


y (57) 
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在 这 种 情况 下 ， 超 平面 上 的 所 有 点 都 假定 为 1 或 TRUE， 而 下 面 的 点 假定 为 0 或 FALSE。 
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们 ， 需要 两 条 线 ， 这 只 自 


在 下 表 中 列 出 了 对 于 XOR 消 数 ， 所 有 可 能 的 逻辑 结果 。 


an 
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下 图 展示 了 二 维 平面 中 的 所 有 四 种 情况 。 


如 预期 的 那样 ， 这 样 的 函数 需要 两 条 绪 将 所 有 可 能 的 情况 分 组 。 


《不 能 通过 网 络 结构 进行 复制 ， 例 如 在 这 里 看 到 的 结构 。XOR 和 identity 函 数 是 不 可 分 离 的， 为 了 隔离 它 
的 网 络 结构 来 实现 。 


] 
] 
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在 理解 了 感知 机 理论 的 基础 之 后 ， 现 在 可 以 研究 一 个 实际 案例 。 
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前 面 的 部 分 介绍 了 使 用 感知 机 作为 分 类 器 的 基本 概念 。 现 在 是 时 候 将 已 经 研究 过 的 东西 应 用 实践 了 。 现 在 来 分 析 一 个 案例 ， 
试图 根据 花 淮 和 莹 片 的 大 小 对 营 尾 伦 进 行 分 类 。 重 复 使 用 iris 数 据 集 的 原因 不 仪 是 其 中 包含 的 数据 的 质量 好 ， 读 者 可 以 轻松 地 理 
解 相 关 概 念 ， 而 且 更 重要 的 是 能 够 用 它 来 比较 不 同 的 算法 。 


这 个 数据 集 涉及 3 种 芒 尾 伦 (setosa、virginica 和 versicolor) 各 50 个 样本 。 从 每 个 样本 测量 4 个 特征 : 莹 片 和 论 办 的 长 度 和 
宽度 ， 以 厘米 为 单位 。 

具体 变量 如 下 : 

1) 以 厘米 为 单位 的 警 睛 的 长 度 。 

2) 以 厘米 为 单位 的 莹 片 的 宽度 。 

3) 以 厘米 为 单位 的 花 兴 的 长 度 。 

4) 以 厘米 为 单位 的 伦 泊 的 宽度 。 

5) 类 别 : setosa, virginica, versicolor, 

在 所 提出 的 例子 中 ， 我 们 将 里 试 通过 线性 分 类 器 对 setosa 和 versicolor 进 行 分 类 。 

让 我 们 在 R 中 为 数据 集 iris 建 立 一 个 感知 机 消 数 ， 代 码 如 下 所 示 : 

TEE HH FE FE FE HH HE HE EE FE FE FE HH EE FE FE E FE FE E HH FE FE FE ETE EE EE HE HF E FE FE EE FE HE FE FE FE ERE EE ERE HE FF E 

###Chapter 4 - Introduction to Neural Networks - using R HH EE EE HH 


###Simple Perceptron implementation function in R - iris dataset #### 


TEE HH HH HE HE FE HH HH HH HH HH HF HE HE FE EH FE HEE HE FE HE FE FE HE AERE TER TERRE FE E PE FE FE E E ERE ERE E FE E E FE FE HE E FE FE HE HE HE HE E HE 


data (iris) 
head (iris, n=20) 


iris sub-iris[1:100, c(1, 3, 5)] 
names(iris _sub)=c("sepal", "petal", "species") 
head(iris sub) 


library (ggplot2) 


ggplot(iris sub, aes(x = sepal, y = petal)) + 


geom_point (aes (colour=species, shape=species), size = 3) + 
xlab("Sepal length") + 

ylab("Petal length") + 

ggtitle("Species vs Sepal and Petal lengths") 


euclidean.norm = function(x) {sqrt(sum(x * x)) } 
distance.from.plane = function(z,w,b) { 
sum(z*w) + b 
} 
classify.linear = function(x,w,b) { 
distances = apply(x, 1, distance.from.plane, w, b) 
return (ifelse (distances < 0, -1, +1)) 
} 
perceptron = function(x, y, learning.rate=1) { 


w = vector(length = ncol(x)) # initialize weights 
b = 0 # Initialize bias 

k = 0 # count updates 

R = max(apply(x, 1, euclidean.norm) ) 
mark.complete = TRUE 


while (mark.complete) { 
mark .complete=FALSE 
yc = classify.linear(x,w,b) 
tor (x in 1:nrowix)) 4 


if (y[i] != yc[il) ( 
w = w + learning.rate * y[1i]*x[i,] 
b = b + learning.rate * y[i]*R^2 
k = k+l1 
mark .complete=TRUE 


} 
} 

} 

S = euclidean .norm(w) 

return (list (w=w/s,b=b/s, updates=k) ) 
} 
x = cbind(iris sub$sepal, iris sub$petal) 
y = ifelse(iris sub$species == "setosa", +1, -1) 
p = perceptron (x, y) 


plot (x, cex=0.2) 


points (subset (x, Y==1) ,col="black", pch="+", cex=2) 


points (subset (x, Y==-1) , col="red", pch="—-", cex=2) 
intercept = - p$b / p$w[[2]] 
slope = - p$w[[11] /p$ w[[2]] 


abline (intercept, slope, col="green") 


现在 ,来 逐 行 分 析 人 代码。 遵循 本 书 的 风格 ,这 里 首先 呈现 一 部 分 代码 ， 然 后 详细 进行 解释 : 


data (iris) 
head(iris, n-20) 


第 一 条 命令 加 载 包含 在 数据 集 库 中 的 数据 集 iris， 并 将 其 保存 在 给 定 的 数据 框 中 ， 然 后 使 用 函数 head 来 显示 数据 集 的 前 20 
行 。 请 记 住 ， 消 数 head 返 回 向 量 、 和 矩阵 、 表 、 数 据 框 或 立 数 的 开始 部 分 或 最 后 部 分 。 在 这 个 案例 中 ， 指 定 必 须 显 示 的 行 数 
(n=20) ， 结 果 如 下 : 


> head(iris, n=20) 
Sepal.Length Sepal .Width Petal.Length Petal.Width Species 


1 9: Seo 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 0.2 setosa 
4 4.6 3: 1:9 0.2 setosa 
9 ae 3.6 1.4 0.2 setosa 
6 5.4 3.9 sud 0.4 setosa 
7 4.6 3.4 1.4 0.3 setosa 
8 S. 3.4 L9 0.2 setosa 
9 4.4 2.9 1.4 0.2 setosa 
10 4.9 T iF d 0.1 setosa 
11 5.4 347 L5 0.2 setosa 
L2 4.8 3.4 1.6 0.2 setosa 
L3 4.8 3 .U 1.4 0.1 setosa 
14 4.3 3.0 1.1 0.1 setosa 
15 5.8 4.0 | 0.2 setosa 
16 Sw 4.4 Lao 0.4 setosa 
17 2, 4 < L3 0.4 setosa 
18 9 da 1.4 0.3 setosa 
19 9 y 2449 L4 0.3 setosa 
20 9 ea LA. L5 0.3 setosa 


回 到 代码 。 我 们 将 只 提取 数据 集 iris 的 前 100 行 ， 并 提取 类 别 的 车 请 长 度 和 化 办 长 度 ， 以 此 获得 二 信和 输 出 : 


aras Sub=1Fis (1: 100, SQL, 3, 52] 
names (iris_sub)=c("sepal", "petal", "species") 
head (iris_sub) 


在 这 里 ， 只 有 数据 集 iris 的 前 100 行 ， 列 1、 列 3 和 列 5 被 选中 。 这 是 因为 前 面 的 100 行 包含 下 面 的 例子 中 我 们 感 兴趣 的 两 个 类 
pI) (setosa 和 versicolor) 的 数据 。 列 1、 列 3 和 列 5 是 sepal.length (x1) 、petal.length (x2) 和 species (y-output) 。 


library (ggplot2) 


ggplot(iris_sub, aes(x = sepal, y = petal)) + 

geom point (aes (colour=species, shape-species), size = 3) + 
xlab("Sepal length") + 

ylab("Petal length") + 

ggtitle("Species vs Sepal and Petal lengths") 


首先 加 载 添加 包 ggplot2， 然 后 使 用 ggplot0 获 得 类 别 天 于 sepal.length 和 petal.length 分 布 的 散 点 图 。 当 然 ， 应 该 事先 安 痰 


好 添加 包 。 


Qez: WT, WRZ IRP REENA, AEM h Reinstall. package. ZERRA L8] icGEXA. CHA 


添加 包 的 名 字 作 为 向 量 参 数 ， 从 仓库 中 下 载 添加 包 并 进行 安装 。 


浮 数 perceptron 的 目的 是 找 出 处 理 类 别 setosa 和 versicolor 的 线性 分 类 器 。 下 图 显示 两 种 芒 尾 花 的 葬 片 长 度 与 花 准 长 度 的 关 


系 。 
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可 以 看 出 ， 这 两 个 类 别 置 于 平面 的 不 同 区 域 ， 所 以 线性 分 离 是 可 能 的 。 在 这 一 点 上 ， 需 要 定义 销 数 来 做 感知 机 处 理 : 


euclidean.norm = function(x) {sqrt (sum(x * x)) } 


distance.from.plane = function(z,w,b) { 
sum(z*w) + b 


} 


classify.linear = function(x,w,b) { 
distances = apply(x, 1, distance.from.plane, w, b) 
return (ifelse (distances < 0, -1, -41)) 


} 


perceptron = function(x, y, learning.rate=1) { 

w = vector(length = ncol(x)) # initialize weights 
b = 0 # Initialize bias 

k 0 # count updates 

R max(apply(x, 1, euclidean.norm) ) 
mark.complete = TRUE 


while (mark.complete) { 
mark .complete=FALSE 


yc = classify.linear(x,w,b) 
for (i in 1:nrow(x)) { 
if (y[i] != yc[i]) { 


w = w + learning.rate * y[1i]*x[1, ] 
b = b + learning.rate * y[i]*R^2 
k = k+l 

mark .complete=TRUE 


} 
} 
} 
S = euclidean .norm(w) 
return (list (w=w/s,b=b/s, updates=k) ) 
} 


定义 了 在 感知 机 训练 算法 中 讨论 的 函数 perceptron， 将 learning.rate 设 置 为 1， 并 党 试 更 新 每 个 循环 中 的 权重 。 一 旦 输出 与 
ERE (weights*inputs) 相等 ， 则 停止 训练 并 移出 。 更 新 的 权重 由 遂 数 返回 。 该 冰 数 的 目标 是 获得 模型 所 需 的 一 组 最 优 权 重 ， 
如 下 所 示 : 


x = cbind(iris sub$sepal, iris sub$petal) 


ifelse(iris sub$species == "setosa", +1, -1) 


K 
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perceptron (x, y) 


'Ü 
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EBT, FAAEA AKE., Eisepal.length£üpetal.lengthtÀEkiS ABER, GBT, Ksetosahyins 
输出 设置 为 正 值 ， 其 余 为 负 值 。 输 出 为 是 setosa 或 不 是 setosa (+1 或 -1) . HR=TH, isfrBRZXperceptron, 


调用 市 有 参数 x 和 y 的 国 数 perceptron ， 得 出 感知 机 的 最 优 权 重 ， 如 以 下 代码 所 示 : 


plot (x, cex=0.2) 


points (subset (x, Y==1) , col="black", pch="+", cex=2) 


points (subset (x, Y==-1) , col="red", pch="*", cex=2) 
intercept = - p$b / p$w[[2]] 
slope = - p$w[[1]] /p$ w[[2]] 


abline (intercept, slope, col="green") 


前 面 的 代码 行 绘制 了 x 和 y， 在 图 中 以 + 和 * 点 突出 显示 了 setosa 和 versicolor， 然 后 找到 由 感知 机 返回 的 变量 p (感知 机 ) 的 
截 距 和 斜率。 在 下 图 中 绘制 线性 分 离线 。 
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忌 而 言 之 ， 我 们 使 用 R 代 码 实 现 了 感知 机 ， 并 找到 了 最 优 权重 ,利用 感知 机 实现 了 线性 分 离 。 


45 ”多 层 感 和 机 


我 们 看 到 与 | 和 或 门 输 出 是 续 性 可 分 离 的 ， 感 知 机 可 以 用 来 模拟 这 个 数据 。 但 是 ， 并 不 是 所有 的 函数 都 是 可 分 离 的 。 实 际 
上 ， 随 着 位 数 的 增加 ， 可 实现 的 函数 总 数 和 比例 趋 于 零 。 事 实 上 ， 正 如 预料 的 那样 ， 如 果 采 用 异 或 门 ， 线 性 分 离 器 是 不 能 实现 
的 。X 字 和 0O 字 位 于 不 同 的 位 置 ， 我 们 不 能 把 它们 分 开 ， 如 下 图 所 示 。 


nj x O 
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为 了 实现 更 三 泛 的 冰 数 ， 必 须 将 输入 层 和 输出 层 乙 间 的 中 间 传 输 引入 感知 机 中 ， 它 允许 输入 的 某 种 内 部 表示 。 由 此 产生 的 感 


知 机 称 为 MLP。 
MLP2DH3e a Rank: 输入 层 节 点 、 隐 合 层 节点 和 输出 层 忆 点 。 除 输入 层 节 点 外 ， 每 个 古 点 都 是 使 用 非 线性 没 活 立 数 的 
律 经 元 。MLP 使 用 有 监督 学 习 拉 术 和 反问 传播 进行 训练 。 多 层 和 非 线性 特性 区 分 了 MLP 和 简单 感知 机 。MLP 专 门 用 于 处 理 数据 
` 是 线性 可 分 离 的 情况 。 


例如 ， 如 下 图 所 示 的 MLP 能 够 实现 XOR 六 数 ， 而 前 文 讲 过 ，XOR 函 数 不 能 通过 一 个 简单 感 和 机 来 实现 。 


输入 xi| 输 入 x 


XOR 是 使 用 3 层 网 络 实现 的 ， 并 且 是 OR 和 AND 感 知 机 的 组 合 。 输 出 层 包含 一 个 给 出 XOR 输 出 的 神经 元 。 这 种 配置 允许 两 个 
神经 元 在 每 个 特定 的 逻辑 函数 上 进行 实现 。 例 如 ， 在 XOR 的 情况 下 ， 两 个 神经 元 可 以 分 别 执行 AND 和 OR 多 辑 函 数 。 


Qez 术语 MLP 不 是 指 具 有 多 个 层 的 简单 感知 机 。 相 反 ， 它 包含 许多 组 织 成 层 的 感知 机 。 另 一 种 情况 是 MLP 网 络 。 
MLP 的 应 用 有 : 

1) MLP 对 研究 中 的 复杂 问题 非常 有 用 。 

2) MLP 是 通用 函数 逼近 器 ， 可 通过 回归 分 析 来 创建 数学 模型 。MLP 也 是 很 好 的 分 类 器 算法 。 

3) MLP 用 于 不 同 的 领域 ， 如 语音 识别 、 图 像 识 别 和 语言 翻译 。 它 们 构成 了 深度 学 习 的 基础 。 


现在 将 使 用 R 中 的 添加 包 SNNS 来 实现 一 个 MLP。 


4.6 ”使 用 RSNNS 在 R 中 实现 MLP 


RSNNS 包 来 自 CRAN， 在 本 例 中 使 用 mlp0 进 行 建 模 。SNNS 是 用 C++ 编 写 的 添加 包 ， 包 含 许多 标准 的 神经 网 络 实现 。 添 加 


包 RSNN3 封 委 了 SNNS9 功 能 ， 使 其 可 以 从 R 内 部 使 用 。 使 用 RSNNS 人 氏 层 接口 ， 可 以 访问 所 有 算法 函数 和 灵活 的 SNNS。 该 添加 包 
包含 大 多 数 党 用 的 神经 网 络 拓扑 和 学 习 算 法 的 高 级 接口 ， 可 以 无 颖 集成 到 R 中 。 从 官方 文档 中 摘录 的 添加 包 RSNNS 的 简要 说 明 如 
下 表 所 示 。 


添加 包 RSNNS 

摘 述 

SNNS 是 一 个 包含 许多 神经 网 络 标准 实现 的 添加 包 。 这 个 添加 包 封 狼 了 SNNS 功能 ， 使 其 可 以 从 R 内 部 使 用 。 
使 用 RSNNS 低层 接口 ， 可 以 访问 所 有 算法 也 数 和 灵活 的 SNNS。 此 外 ,该 软件 包 包 含 一 个 方便 的 高 级 接口 ， 最 
第 见 的 神经 网 络 拓扑 和 学 习 算法 都 能 无 颖 集成 到 R. 

详细 信息 

添加 包 : RSNNS 

类 型 : 添加 包 

版 本 : 0.4-9 

Hi}: 2016-12-16 

许可 证 : LGPL (>=2) 


作者 : 

Christoph Bergmeir 

José M. Benitez 

FAYE: 

mlp(x, y, 

size = c ( 2) , 

maxit = 100, 

initFunc = "Randomize Weights", 
initFuncParams = c(-0.3, 0.3), 
learnFunc = "Std_Backpropagation", 
learnFuncParams = c(0.2, 0), 
updateFunc = "Topological, Order", 
updateFuncParams = c(0), 
hiddenActFunc = "Act Logistic", 


shufflePatterns = TRUE, 

linOut = FALSE, 

outputActFunc = if (linOut) "Act Identity" else "Act Logistic", 
inputsTest = NULL, 

targetsTest = NULL, 

pruneFunc = NULL, 

pruneFuncParams = NULL, ...) 


使 用 浮 数 mlp0 创 建 一 个 MLP 并 对 其 进行 训练 。 训 练 通常 通过 反 向 传播 进行 。 


下 表 列 出 了 最 弟 用 的 参数 。 


x es 4H ARVI A FS) BE 


y TRI B] H pate 

size 隐 含 层 中 的 神经 元 个 数 

maxit 学 习 的 最 大 迭代 次 数 
hiddenActFunc 所 有 隐 含 神经 元 的 激活 晒 数 
outputActFunc FI 5g CH FH ZS TC A PAT PRI 
inputsTest 市 有 输入 的 窍 阵 ， 用 于 测试 网 络 
targetsTest 测试 输入 的 相应 目标 值 


先 来 看 一 下 使 用 完整 的 数据 集 iris 构 建 SNNS MLP 的 代码 : 


Hit HE HF HE FE HE HE FE FE FE EE ERE HF FE FE FE E E HE EE ERE E FF FF FE FE ERE EE ERE FE FE HH FF FF HH EE HE EE FF HF Ht HH 
###Chapter 4 - Introduction to Neural Networks - using R ########## 
###Simple RSNNS implementation function in R - iris dataset ####### 
TEE ERE ERE FE FE FE ERE ERE ERE FH ERE AERE EE ERE EE EE FE FE FE ERE ERE ERE ERE FE FE FF ERE ERE ERE ERE FE FE HE ERE ER H HE 


data (iris) 


library("RSNNS") 


iris = iris[sample(1:nrow(iris),length(1:nrow(iris))),1:ncol(iris)] 
irisValues - iris[,1:4] 

irisTargets - decodeClassLabels (iris[,5]) 

iris - splitForTrainingAndTest(irisValues, irisTargets, ratio-0.15) 
iris = normTrainingAndTestSet (iris) 


model = mlp(iris$inputsTrain, 
iris$targetsTrain, 
size=5, 
learnFuncParams=c (0.1), 
maxit=50, 
inputsTest=irisSinputsTest, 
targetsTest-iris$targetsTest) 


summary (model) 
weightMatrix (model) 


par (mfrow=c (2,2) ) 
plotlIterativeError (model) 


predictions = predict (model,iris$inputsTest) 
plotRegressionError(predictions[,2], iris$targetsTest[,2]) 


confusionMatrix (iris$targetsTrain, fitted.values (model)) 
confusionMatrix (iris$targetsTest, predictions) 


par (mfrow=c (1,2) ) 
plotROC (fitted.values (model) [,2], iris$targetsTrain[,2]) 
plotROC(predictions[,2], iris$targetsTest[,2]) 


confusionMatrix(irisS$targetsTrain, 
encodeClassLabels(fitted.values (model), 
method="402040", 
1=0.4, 


h=0.6) ) 
FHT HE HE HEH TH EH FE HE HH HH HH PE FE E HE FE FE FE FE E HH FE E E FE ERE ERE HE HE REE EE EE EH EHH HH HH HHH 


该 命令 加 载 包含 在 数据 集 库 中 的 数据 集 iris， 并 将 其 保存 在 给 定 的 数据 框 中 。 考 虑 到 要 多 次 使 用 它 ， 所 以 没有 必要 添加 任何 
东西 。 这 段 代码 加 载 程序 中 用 到 的 添加 包 RSNNS 如 下 : 


install .Packages ("RSNNS") 
library ("RSNNS") 


We: 记 住 ， 想 要 安装 初始 的 RR 中 不 存在 的 添加 包 ， 必 须 使 用 遂 数 install.package。 这 是 安装 添加 包 的 主要 咏 数 。 它 将 目标 


添加 包 的 名 字 作 为 向 量 参 数 ， 从 仓库 中 下 载 添加 包 并 进行 安装 。 
在 我 们 的 例子 中 ， 必 须 使 用 命令 install.packages ( “RSNNS" ) 。 只 有 第 一 次 使 用 时 才 需 要 安 禾 添加 包 ， 从 CRAN 安 委 添 


加 包 RSNNS。 


iris = iris[sample(1:nrow(iris),length(1:nrow(iris))),1:ncol(iris)] 


在 这 一 行 中 ， 数 据 集 iris 在 行内 混 洗 。 这 个 操作 使 得 数据 集中 的 行 序 是 随机 的 。 事 实 上 ， 在 原始 数据 集中 ， 这 些 观 察 结 果 是 
根据 花卉 种 类 排序 的 : 前 50 种 是 setosa， 其 次 50 种 是 versicolor， 最 后 的 50 种 是 virginica。 在 这 个 操作 之 后 ， 这 些 行 是 随机 出 现 


的 。 为 了 验证 这 一 点 ， 打 印 修改 后 的 数据 集 的 前 20 行 : 


> head(iris, n=20) 


Sepal.Length Sepal.Width Petal.Length Petal .Width Species 
了 与 6.4 2.9 4.3 1.3 versicolor 
117 6.4 zs SE du 1.9 virginica 


54 Jg. 2.3 4.0 1.3 versicolor 


36 m AE 3. |. Osa setosa 
14 4.3 2.U 1.1 0.1 setosa 
115 5.9 2.8 9.4 2.4 virginica 
125 6.7 r M 2.1 virginica 
27 8.0 3.4 1.6 0.4 setosa 
8 5.40 3.4 i dou setosa 
41 944 3 od Z5 3 setosa 
85 9,4 > 4.5 1.5 versicolor 
64 6.1 2.9 4.7 1.4 versicolor 
108 [ 2.9 6 .3 1.8 virginica 
65 3.5 2.9 3.5 1.3 versicolor 
66 6.7 3.41 4.4 1.4 versicolor 
98 6.2 2. 4.3 1.3 versicolor 
39 4.4 2.0 1.3 性 setosa 
84 6.0 2.7 98.4 1.6 versicolor 
2 4.9 a 1.4 cut setosa 
142 6.9 dud uh 2.3 CVIrginrioca 


第 一 列 的 数字 是 原始 数据 集 的 行 号 。 如 何 才能 注意 到 竟 洗 是 完美 的 呢 ? 将 其 与 原始 序列 进行 比较 ， 请 参阅 前 面 的 示例 : 


irisValues = iris[,1:4] 
irisTargets = decodeClassLabels (iris[,5]) 


分 别 设置 自 变 量 和 目标 变量 并 分 配给 irisValues 和 irisTargets: 


iris = splitForTrainingAndTest(irisValues, irisTargets, ratio=0.15) 
iris - normTrainingAndTestSet(iris) 


fa —TH, VAZA ERES plitForTrainingAndTestQXE£127 &l, TZ EFE Bie Ai ESSERI 
试 集 。 从 数据 的 末尾 获取 测试 集 。 如 果 数 据 是 将 要 混 洗 的 ， 那 么 在 调用 这 个 函数 之 前 就 应 该 这 样 做 。 具 体 来 说 ， 数 据 划 分 如 下 : 
859% 用 于 训练 、159%6 用 于 测试 。 在 第 二 行 中 ， 数 据 被 标准 化 。 为 此 ， 使 用 函数 normTrainingAndTestSet(0。 该 国 数 按 以 下 方式 
对 训练 集 和 测试 集 进 行 标准 化 : 使 用 normalizeData 对 inputsTrain 进 行 归 一 化 ， 并 使 用 类 型 中 给 定 的 参数 。 然 后 使 用 在 这 个 标 
准 化 过 程 中 获得 的 标准 化 参数 来 标准 化 inputsTest。 如 果 没 有 设置 参数 dontNormTargets， 则 以 相同 的 方式 标准 化 目标 : 


model = mlp(iris$inputsTrain, 
iris$targetsTrain, 
size=5, 
learnFuncParams=c (0.1), 


maxit=50, 
inputsTest=irisS$inputsTest, 
targetsTest-iris$targetsTest) 


用 训练 数据 集 调 用 函数 mlp() 构 建 模 型 。 这 个 函数 创建 一 个 MLP 并 进行 训练 。 MLP 是 完全 连接 的 前 馈 网 络 ， 可 能 是 最 常用 的 
网 络 染 构 。 通 剃 通过 误 笑 反 向 传播 或 相关 程序 来 进行 训练 。 测 试 数据 集 也 被 传递 以 提供 测试 结 


summary (model) 
weightMatrix (model) 


这 些 代 码 行 允许 我 们 从 新 创建 的 模型 中 提取 有 用 的 信息 。 函 数 summary0 打 印 出 网 络 的 汇总 。 打 印 的 信息 可 以 是 原始 SNNS 
文件 格式 的 网 络 的 所 有 信息 ， 也 可 以 是 extractNetlnfo 给 出 的 信息 。 此 行为 由 参数 origSgnnsFormat 控 制 ， 而 函数 
weightMatrix() 提 取 对 象 rsnns 的 权重 和 矩阵。 下 图 显示 了 汇 忌 结果 的 屏幕 截图 。 


Console = 


> summary (model) 7 A 
SNNS network definition file v1.4-3D 
generated at Mon Sep 11 20:36:30 2017 


network name : RSNNS untitled 
source files : 

no. of units : 12 

no. of connections : 35 

no. of unit types : O 

no. of site types : O 


learning function : Std Backpropagation 
update function : Topological. order 


unit default section : 


act | bias | st | subnet | layer | act func | out func 
SS =e. Moum RES NOME UIS GREE SEE Ua oe 
0.00000 | 0.00000 | i | 0 | 1 | Act Logistic | Out Iidentity 
二 一 一 一 一 一 一 一 一 = 
unit definition section 
no. | typeName | unitName | act | bias | st | position | act func | out func | sites 
Er u aucassmx SOUS Du cU E E EE [es Jon Um WOO OI Imm ee I 
t| | Input_1 | ©: 62818 | 0:21315 | 1 | 270,0 | Act_Identity | | 
2 | | Input_2 | -0.55633 | -0.07461 | i | 2,0,0 | Act_Identity | | 
3-1 | input. 3 | 0.99947 | 0.09449 | i | 3,0,0 | Act Identity | | 
4 | | Input_4 | 1.14838 | -0.07752 | i | 4,0,0 | Act_Identity | | 
So | Hidden_2_1 | 0.96385 | 0.73449 | h | 1,2,0 111 
6 | | Hidden_2_2 | 0.90197 | -1.74463 | h | 2,2,0 111 
Zu | Hidden 2.3 | 0:48885 | 0:351317.] h | 3,;2,0 111 
8 | | Hidden_2_4 | 0.07620 | 2.21245 | h | 4,2,0 111 
9 | | Hidden_2_5 | 0.99787 | 1.57345 | h | 5,2,0 a 
10 | | Output setosa | 0.00294 | 0.36699 |o | 1,4,0 a 
11 | | output versicolor | 0.22604 | -1.55086 | o | 2,4,0 111 
12.1 | output virginica | 0.91737 | -1.35129 | o | 3,4,0 BE 
EINE. MED ——— pee po" i nE | LEES 
connection definition section 
target | site | source:weight 
a cM. |------ | ee 
S: | 4: 0.18637 3: 1.05364, 2:-1.18960, 1: 0.98687 
6 | | 4: 2.11273, 3: 1.20809, 2:-0.56777, 1: 0.02296 
r | 4: 0.71729, 3:-0.26475, 2: 1.29403, 1:-0.37405 
8 | | 4:-2.40895, 3:-1.80834, 2: 0.46908, 1: 0.20235 
9 | | 4: 23535754 3: 1.76400, 2:-1.31827, 1: 0.82827 
10 | | 9:-3.09690 8: 1.94958 7: 0.48732 6:-2.14658 5:-1.61285 
XI] | 9: 2.21104 8: 1.69422 7:-2.51202 6:-1.91801 5: 0.97793 
12 | | 9: 1.35180 8:-4.12962 7: 0.41461 6: 2.70587 5: 0.08385 
EN tipi  CUMEMS UMEnedUDOM oc Cuna rc cto NENME CR cÓO CAPUA cR a mm oo ——————H 
度量 模型 算法 的 性 和 
现在 度量 模 S) 


plotIterativeError (model) 


国 数 plotlterativeError(0 绘 制 了 模型 


测试 误差 ， 如 下 图 所 示 。 


Welghted SSE 


Iteration 
-EÉEIBRSEREEADETUUA ARE, ARMANI Tea, MRA ANRA NES, RAZR ARR 
在 适当 地 训练 模型 之 后 ， 是 时 候 使 用 它 来 做 出 预测 了 : 
predictions = predict (model,iris$inputsTest) 


xia P, REAT BEXpredictQ. xdi es RES EH LS ERIS ZS RET UA aX 


. ARIA ART a 
个 参数 的 类 的 特定 方法 。 我 们 既 有 预测 值 又 有 实际 数据 ， 只 需要 通过 回归 误差 计算 对 它们 进行 比较 : 


plotRegressionError (predictions[,2], iris$targetsTest[,2]) 


JI TRAER, AS explotRegressionError(), iZzERZXCEXiE Lis Eae, YRC TS RGB, RAG 
将 产生 过 零 梯度 线 。 下 图 以 黑色 线 展示 该 最 优 线 。 实 际 数据 的 线性 拟 合 显示 为 红色 。 下 图 显示 了 之 前 训练 的 模型 的 回归 误差 。 


fits 


0.0 0.2 0.4 0.6 0.8 1.0 
Iteration 


PVT AAE RFR EEIE TELE : 


confusionMatrix(iris$targetsTrain,fitted.values (model) ) 
confusionMatrix(iris$targetsTest, predictions) 


为 了 计算 混 清 矩阵， 使 用 了 消 数 confusionMatrix()。 


QET: 请 记 住 ， 泥 清 短 御 显示 真实 类 别 为 的 模式 被 分 类 为 类 别 y 的 次 数 。 一 个 完美 的 方法 应 该 产生 一 个 对 角 短 阵 ， 所 有 
不 在 对 角 线 上 的 值 都 是 该 方法 的 误差。 


代码 的 第 一 行 计算 了 训练 所 用 数据 的 混 清算 阵 (85% 的 数据 ) ， 第 二 行 计算 了 测试 所 用 数据 的 混淆 和 矩阵 〈 剩 下 152% 的 数 
据 ) 。 结 果 如 下 : 


> confusionMatrix(iris$targetsTrain,fitted.values (model)) 


predictions 
targets 1 2 3 

145 0 0 

2 0 34 3 


3 0 1 44 


> confusionMatrix(iris$targetsTest, predictions) 


predictions 
targets 1 2 3 

L 5 0 0 

Z UU 13 QU 

3 U 0 3 


可 以 看 出 ， 训 练 阶 段 有 4 个 错误 ， 只 涉及 类 别 versicolor 和 virginica。 请 记 住 ， 我 们 在 第 3 章 中 的 例子 中 得 到 了 相同 的 结 


但 在 测试 中 ,我 们 没有 犯 任 何 错误 。 虽然 所 处 理 的 数据 实际 上 很 小 ， 但 这 是 一 个 非常 好 的 结果 。 现 以 图 形 方式 评估 这 些 结果 


par (mfrow=c (1, 2) ) 
plotROC (fitted.values (model) [,2], iris$targetsTrain[,2]) 
plotROC (predictions[,2], iris$targetsTest[,2]) 


为 了 评估 网 络 性 能 ， 我 们 绘制 了 受 试 者 工作 特征 (Receiver Operating Characteristic, ROC) 曲线 。 上 述 命令 绘制 了 两 个 


阶段 (训练 和 测试 ) 的 ROC 曲 续 。 


ROC 是 用 于 检查 分 类 器 质量 的 度量 指标 。 对 于 分 类 器 的 每 个 类 别 ，ROC 将 区 间 [0,1] 上 的 立 值 应 用 于 输出 。ROC 曲 线 是 随 阐 


值 变 化 的 TPR 关 于 FPR 的 曲线 。 一 个 完美 的 测试 将 显示 左上 角 的 点 ， 它 们 有 100% 的 灵敏 度 和 100% 的 特异 性 。 线 越 接近 左上 角 ， 
网 络 性 能 越 好 。 下 图 显示 了 两 个 阶段 (左边 是 训练 ， 右 边 是 测试 ) BROCHE. 


sens 
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ABIA, EVIE MRD AIR 
GO ass, 我 们 使 用 函数 par0 在 单个 窗口 中 显示 两 个 图 表 。 其 中 已 经 设置 为 将 图 形 显 示 为 具有 一 行 、 两 列 的 矩阵 。 


添加 包 RSNNS 中 没有 函数 plot， 因 此 使 用 GitHub 的 plot 函 数 来 绘制 刚刚 构建 的 神经 网 络 的 MLP， 包 含 3 类 输出 、4 个 输入 节 


AAAAMO 


Input 1 
Qutput : 
Input 2 
Output ^ 
Input 5 
H4 O3 Output > 
Input 4+ H 


H5 


我 们 使 用 RSN NS 已 经 完成 了 对 数据 集 iris 建 立 昼 经 网 络 。 同 样 的 函数 MLPO0 可 以 用 于 任何 MLP 神 经 网 络 以 构 。 


4.7 小结 


这 一 章 介 绍 了 感知 机 的 概念 ， 它 是 神经 网 络 的 基本 组 成 部 分 。 我 们 也 看 到 了 多 层 感 知 机 及 其 使 用 RSNN3 的 实现 。 简 单 感知 
机 仅 用 于 线性 可 分 离 问 题 ， 不 能 用 于 输出 数据 不 可 续 性 分 离 的 情况 。MLP 算 法 克服 了 这 些 限制 。 


我 们 理解 了 感知 机 的 基本 概念 以 及 它们 如 何在 神经 网 络 算法 中 使 用 ,研究 了 线性 可 分 离 分 类 器 和 适用 这 个 概念 的 浮 数 ， 还 学 
习 了 R 环 境 中 的 一 个 简单 感知 机 实现 函数 ， 然 后 明日 了 如 何 训练 和 建立 一 个 MLP。 


在 下 一 章 中 ， 我 们 将 了 解 如 何 使 用 神经 网 络 模型 训练 、 测 试 和 评估 一 个 数据 集 ; 学 习 如 何在 R 环 境 中 对 神经 网 络 模型 进行 可 
钢化 。 该 章 将 涵 关 早期 何止 、 避 免 过 拟 合 、 神 经 网 络 泛 化 以 及 神经 网 络 参 数 缩放 等 概念 。 


om RPI 


练 和 可 钢化 仲 经 网 络 


正如 在 第 1 草 和 第 2 草 中 看 到 的 那样 ， 训 | 练 神 经 网 络 模 型 为 构建 神经 网 络 莫 定 了 基础 。 


前 馈 和 反 向 传播 是 用 来 确定 模型 的 权重 与 偏 磊 的 技术 。 权 重 不 能 为 零 ， 但 偏 舌 可 以 为 零 。 首 先 ， 权 重 初始 化 为 一 个 随机 数 ， 
通过 梯度 下 降 ， 使 误 郑 最 小 化 ， 然 后 会 得 到 一 个 权重 和 侦 差 最 优 的 模型 。 


一 旦 模型 使 用 任何 R 消 数 进行 训练 ， 则 可 以 传递 目 变 量 来 预测 目标 或 未 知 变 量 。 本 草 将 使 用 公开 的 数据 集训 练 、 测 试 和 可 视 
化 神经 网 络 模 型 。 


ARAH: 
- 使 用 NN 模型 训练 、 测 试 和 评估 数据 集 
. 可 视 化 NN 模型 


: 早期 停止 


: NN 的 泛 化 
> NN 参数 的 缩放 
+ 集成 模型 


本 章 的 最 后 将 介绍 如 何 使 用 NN 模 型 来 训练 、 测 试 和 评估 一 个 数据 集 ， 以 及 如 何在 R 环 境 中 对 NN 模 型 进行 可 视 化 。 本 章 涵 兰 
早期 停止 、 避 免 过 拟 合 、NN 的 泛 化 以 及 NN 参数 的 缩放 等 概念 。 


5.1 “使 用 神经 网 络 进行 数据 拟 合 


数据 拟 合 是 建立 与 一 组 事先 收集 的 点 最 匹配 的 曲线 或 数学 函数 的 过 程 。 曲 线 拟 合 涉及 插值 和 平滑 ， 在 插值 时 需要 精确 的 数据 
点 ， 在 平滑 时 构建 笛 近 数据 的 平坦 图 效 。 从 数据 拟 合 中 获得 的 近似 曲线 有 助 于 显示 数据 ， 预 测 没有 数据 可 用 的 函数 的 值 ， 并 总 结 
两 个 或 多 个 变量 之 间 的 关系。 下 图 显示 了 所 收集 数据 的 线性 插值 。 


数据 拟 合 是 在 一 组 输入 上 训练 神经 网 络 以 产生 一 组 相关 联 的 目标 输出 的 过 程 。 一 旦 神经 网 络 拟 合 数据 ， 束 形成 了 输入 -输出 
天 系 的 泛 化 ， 并 可 用 于 生成 未 经 过 训练 的 输入 对 应 的 输出 。 


车 辆 的 燃料 消耗 一 直 是 全 球 的 主要 汽车 制造 商 的 研究 问题 。 在 加 油 问 题 和 空气 污染 问题 更 加 突出 的 时 代 ， 竹 辆 的 燃料 消耗 变 
成 了 天 键 因素 。 在 这 个 例子 中 ， 我 们 将 建立 一 个 神经 网 络 ， 目 的 是 根据 一 定 的 特征 来 预测 车 辆 的 油耗 。 


为 此 ， 这 里 使 用 第 3 章 中 已 经 使 用 的 1SLR 添 加 包 中 的 数据 集 Auto。 数 据 集 Auto 包 含 392 辆 车 的 油耗 、 马 力 等 信息 。 它 是 一 个 
数据 框 ， 包 含 以 下 9 个 变量 、392 个 观察 值 : 

- mpg: 英里 /加 仑 中 

- cylinders: 4 和 8 之 间 的 气缸 数 

- displacement: 发 动机 排 量 (立方 英寸 四) 

- horsepower: 发 动机 马力 站 

- weight: 车 重 (EU) 

‘acceleration: 从 0 加 速 到 60 英 里 /小 时 口 的 时 间 (以 秒 为 单位 ) 

year: 年 代 

origin: 汽车 的 原 产 地 (美国 、 欧 洲 、 日 本 ) 

"name: 车 辆 名 称 

以 下 是 这 个 例子 使 用 的 代码 : 


T EE HH HH FE FE HE HE HE FE FE HE E FE FE HH E ERE ERE EE ERE EE FE FE EE EE FF FE FE HE E HE FE FE ERE FF HH HE HE a FH ERE EH HE HF HE HH 
H##H#H##HH#Chapter 5 — Introduction to Neural Networks - using RiHHHBHHEEEERSS HHHH 
HHFHHHHFHHER program to build, train and test neural networksiH id d EE HER HHHH 
TE EE ETE ETE ERE HE HH ETE ETE ERE EE RE ERE ERE EE RE EE EE EE EE EE EE EE EE RE ERE ERE EE EE FE FE ERE EE ERE ERE ERE EEF ERE ER 
library ("neuralnet") 

library ("ISLR") 


data - Auto 
View (data) 


plot (data$weight, data$mpg, pch=dataSorigin, cex=2) 

par (mfrow=c (2, 2) ) 

plot (data$cylinders, data$mpg, pch-data$origin,cex-1) 
plot (data$displacement, data$mpg, pch-data$origin,cex-1) 
plot (data$horsepower, data$mpg, pch-data$origin,cex-1) 
plot (data$acceleration, data$mpg, pch=dataSorigin, cex=1) 


mean data <- apply (data[1:6], 2, mean) 
sd data «- apply(data[1:6], 2, sd) 


data scaled <- as.data. frame (scale(data[,1:6],center = mean data, scale = 
sd_data) ) 
head(data_scaled, n=20) 


index = sample (1:nrow(data) , round(0.70*nrow(data) ) ) 

train data <- as.data.frame(data_scaled[index, ]) 

test data <- as.data.frame(data scaled[-index,]) 

n = names (data scaled) 

f = as.formula(paste("mpg ~", paste(n[!n $in$ "mpg"], collapse = " + "))) 


net = neuralnet(f,data-train data,hidden-3,linear.output-TRUE) 
plot (net) 


predict net test <- compute (net,test data[,2:6]) 
MSE.net <- sum((test data$mpg - 
predict net test$net.result)^2)/nrow(test data) 


Lm Mod <- lm(mpg~., data-train data) 

summary (Lm Mod) 

predict lm «- predict(Lm Mod,test data) 

MSE.lm «- sum((predict lm - test data$mpg)^2)/nrow(test data) 


par (mfrow=c (1, 2) ) 

plot (test _data$mpg, predict net _test$net.result, col='black',main='Real vs 
predicted for neural network',pch-18,cex-4) 

abline (0,1, lwd=5) 

plot (test _data$mpg, predict _lm,col='black',main='Real vs predicted for 
linear regression',pch-18,cex-4) 

abline (0,1, lwd=5) 

TEE HH FE FE HHH HH FH HH HE FE E HH FE FE HHH HH E HH HH FE HH HE FH FE E FE FE FE FE HH HF ETE FE E FE FE EH EF HF AERE HH HH HE HE E HEHE 


像 往 单一 样 ， 逐 行 分 析 代 码 ， 详 细 解 释 应 用 于 捕获 结果 的 所 有 特征 : 


library ("neuralnet") 
Library ("ISLR") 


原始 代码 的 前 两 行 用 于 加 载运 行 分 析 所 需 的 库 。 


(3... WTA, T XERGRLOEGUASSRABOGRCECTAR4ESQZRÁIMOL, LE M Reinstall package. ZIERA GL] i X*ugsAt. CH 


添加 包 的 称 构 成 的 向 量 和 本 地 添加 包 库 的 路 径 作 为 参数 ， 从 仓库 中 下 载 添加 包 并 进行 安装 。 这 个 函数 只 需要 使 用 一 次 ， 不 必 每 次 


添加 包 Neuralnet 用 来 训练 神经 网 络 ， 使 用 反 向 传播 、 有 或 无 权重 回溯 的 弹性 反 向 传播 (RPROP) 或 修正 的 全 局 收敛 版 本 
(GRPROP) 。 设 函数 允许 通过 目 定 义 误 帮 和 激活 消 数 进行 灵活 设置 。 此 外 ， 还 可 以 进行 广义 权重 的 计算 。 


添加 包 ISLR 包 含 一 个 可 供 这 里 的 例子 自由 使 用 的 数据 集 ， 它 是 研究 中 心 从 主要 研究 中 收集 的 一 系列 数据 。 


data = Auto 
View (data) 


这 段 命 令 加 载 了 数据 集 Auto， 正 如 所 预料 的 那样 ， 它 包含 在 添加 包 1SLR 中 且 保 存在 给 定 的 数据 框 中 。 使 用 消 数 View 查 看 任 
意 R 对 象 结构 的 紧凑 显示 。 以 下 屏幕 截图 显示 了 数据 集 Auto 中 包含 的 一 些 数 据 。 


| data —, 


Filter 
mpg cylinders displacement horsepower weight acceleration year origin name 

1 18 8 307.0 130 3504 12.0 70 1 chevrolet chevelle malibu s 

2 15 8 350.0 165 3693 11.5 70 1 buick skylark 320 

3 18 8 318.0 150 3436 11.0 70 1 plymouth satellite 

4 16 8 304.0 150 3433 12.0 70 1 amc rebel sst 

5 17 8 302.0 140 3449 10.5 70 1 ford torino 

6 15 8 429.0 198 4341 10.0 70 1 ford galaxie 500 

7 14 8 454.0 220 4354 9.0 70 1 chevrolet impala 

8 14 8 440.0 215 4312 8.5 70 1 plymouth fury iii 

9 14 8 455.0 225 4425 10.0 70 | pontiac catalina 
10 15 8 390.0 190 3850 8.5 70 1 amc ambassador dpl 
11 15 8 383.0 170 3563 10.0 70 1 dodge challenger se 
12 14 8 340.0 160 3609 8.0 70 1 plymouth 'cuda 340 
13 15 8 400.0 150 3761 9.5 70 1 chevrolet monte carlo 
14 14 8 455.0 225 3086 10.0 70 1 buick estate wagon (sw) 
15 24 E 113.0 95 2372 15.0 70 3 toyota corona mark ii 
16 22 6 198.0 95 2833 15.5 70 1 plymouth duster 
17 18 6 199.0 97 2774 15.5 70 1 amc hornet 
18 21 6 200.0 85 2587 16.0 70 1 ford maverick 
19 27 4 97.0 88 2130 14.5 70 3 datsun pl510 
20 26 E 97.0 46 1835 20.5 70 2 volkswagen 1131 deluxe sedan v 


Showing 1 to 20 of 392 entries 


如 你 所 见 ， 数 据 库 由 392 行 和 9 列 组 成 。 行 代表 了 1970 ~ 1982 年 共 392 辆 商用 车 ， 列 代表 了 从 每 辆 车 收集 到 的 9 个 特征 ， 依 次 


为 : mpg、cylinders、displaeement、horsepower、weight、acceleration、year、origin 和 name。 


5.1.1 探索 性 分 析 


在 通过 建立 和 训练 神经 网 络 开始 数据 分 析 之 前 ， 我 们 进行 探索 性 分 析 ， 以 了 解数 据 是 如 何 分 布 的 ， 并 提取 初步 的 知识。 


可 以 通过 绘图 查看 预测 指标 与 目标 指标 之 间 的 关系 ， 开 始 探索 性 分 析 。 在 分 析 中 ， 预 测 变 量 是 以 下 变量 : cylinders, 
displacement、horsepower、weight、acceleration、year、origin 和 name。 目标 变量 是 变量 mpg， 其 中 包含 392 个 样本 车 


每 加 仑 燃油 可 跑 的 里 程 数 。 
假设 要 检查 3 个 不 同 原 产 地 的 汽车 的 重量 和 里 程 数 ， 如 下 图 所 示 ， 可 使 用 下 面 的 代码 : 


plot (data$weight, data$mpg, pch=dataSorigin, cex=2) 


为 了 绘制 图 ， 可 使 用 函数 plot()， 指 定 x 轴 (weight) 和 y 轴 (mpg) 代表 的 内 容 ， 最 后 ， 基 于 分 组 变量 (origin) 进行 给 
图 ,如 下 图 所 示 。 


data$mpg 


4000 4500 5000 


1500 2000 2500 3000 3500 
data$weight 


请 记 住 ， 列 origin 中 的 数字 对 应 以 下 区 域 : 1= 美 国 、2= 欧 洲 、3= 日 本 。 对 上 图 进行 分 析 ， 可 以 上 友 现 燃油 消耗 随 着 车 的 重量 


增加 而 增加 。 要 记 住 ,目标 变量 是 mpg， 即 表示 加 仑 的 燃油 车 行驶 的 严 里 数 。 由 此 可 见 ，mpg (英里 /加 仑 ) 的 值 越 大 ， 燃 油 消 
耗 越 低 。 
从 图 得 到 的 另 一 个 结论 是 美国 生产 的 汽车 更 重 。 事 实 上 ， 图 的 右边 部 分 (对 应 于 较 高 的 重量 值 ) 只 有 美国 地 区 生产 的 汽车 。 


最 后 ， 如 果 把 分 析 的 重点 放 在 图 的 左 侧 ， 在 对 应 最 低 油 耗 的 上 半 部 分 ， 大 多 是 日 本 和 欧洲 的 汽车 。 忆 之， 可 以 注意 到 ， 燃 油 


消耗 最 低 的 汽车 是 日 本 的 汽车 。 
现在 来 看 看 其 他 图 ， 也 就 是 说 ， 如 果 绘 制 剩余 的 数字 预测 值 (cylinders、displacement、horsepower 和 acceleration) 与 
目标 变量 (mpg) 的 关系 ， 会 得 到 什么 结 


par (mfrow=c (2, 2) ) 
plot (data$cylinders, data$mpg, pch-data$origin,cex-1) 


plot (dataS$displacement, data$mpg, pch=dataSorigin, cex=1) 

plot (dataShorsepower, data$mpg, pch=data$origin, cex=1) 

plot (dataSacceleration, data$mpg, pch=dataSorigin, cex=1) 

为 了 精简 篇 幅 ， 决 定 把 这 4 个 图 合 为 一 个 。R 使 用 函数 par(0 可 以 轻松 地 将 多 个 图 组 合成 一 个 普通 的 图 。 使 用 函数 par0， 可 以 
利用 其 中 的 选项 mfrow=c(nrows,ncols) 来 创建 一 个 按 行 填充 的 Nrows*ncols 和 矩 阵 图 。 例 如 ， 用 选项 mfrow=c(3,2) 创 建 一 个 3 行 2 


列 的 矩阵 图 。 另 外 ， 选 项 mfcol=c(nrows,ncols) 按 列 填充 矩阵 。 


下 面 的 图 显示 了 4 个 以 2 行 2 列 排列 的 矩阵 图 |。 
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dataSacceleration 


dataShorsepower 


可 以 注意 到 ， 马 力 较 高 的 车 辆 的 油耗 较 高 。 对 于 发 动机 排 量 可 以 得 出 同样 的 结论 : 排 量 较 高 的 车 辆 具有 较 高 的 油耗 。 再 次 ， 
美国 生产 的 汽车 具有 更 高 马力 和 排 量 值 。 


PE 
4A 


相反 ， 具 有 较 遍 加 速度 值 的 汽车 具有 较 低 的 燃料 消耗 ， 这 是 因为 它们 具有 较 轻 的 重量 。 通 单 情况 下 ， 重 型 车 辆 的 加 速度 较 


5.1.2 ”神经 网 络 模 型 


在 第 2 章 中 ， 在 构建 神经 网 络 之 前 对 数据 进行 了 标准 化 。 第 2 章 指出 在 训练 一 个 神经 网 络 之 前 对 数据 进行 标准 化 是 一 个 好 习 
惯 。 通 过 标准 化 ， 数 据 的 单位 被 消除 ， 使 你 可 以 轻松 地 从 各 个 角度 比较 数据 。 

数值 数据 的 标准 化 并 不 总 是 必要 的 。 然 而 ， 已 经 表明 ， 当 数值 标准 化 后 ， 神 经 网 络 的 形成 通常 会 更 有 效 并 能 产生 更 好 的 预 
测 。 事 实 上 ， 如 果 数 值 数 据 没 有 标准 化 ， 而 且 两 个 预测 变量 的 大 小 相差 很 远 ， 那 么 神经 网 络 权重 的 变化 就 会 对 更 大 的 变量 产生 更 
多 的 影响 。 

有 几 种 标准 化 技术 。 第 2 章 采 用 了 最 小 -最 大 标准 化 。 在 这 个 案例 中 ， 我 们 将 采用 2 分数 标 准 化 。 访 技术 中 ， 列 的 每 个 值 减 去 
列 的 平均 值 ， 然 后 将 结果 除 以 列 的 标准 差 ， 公 式 如 下 : 


X — 


scaled 


忆 之 ,2 分 数 (也 称 为 标准 分 数 ) 表示 观测 点 或 数据 的 值 超过 所 观测 或 测量 的 平均 值 的 数值 是 标准 差 的 几 倍 。 平 均值 以 上 的 
值 具 有 正 的 Z 分 数 ， 而 低 于 平均 值 的 值 具 有 负 的 Z 分 数 。Z 分 数 是 一 个 没有 维 厦 的 数量 ， 通 过 从 一 个 粗糙 的 分 数 中 减 去 总 体 数 据 的 
平均 值 ， 然 后 除 以 总 体 数据 的 标准 差 得 到 。 


在 应 用 选 定 的 标准 化 万 法 之 前 ， 必 须 计 算 每 个 数据 库 询 的 平均 值 和 标准 差 值 。 为 此 ， 可 使 用 阔 数 apply。 访 函数 通过 对 数组 
或 者 矩阵 的 维 大 应 用 一 个 阔 数 ， 返 回 一 个 向 量 或 一 个 数组 或 是 一 个 列表 。 现 在 了 解 所 用 参数 的 含义 。 


mean data <- apply(data[1:6], 2, mean) 
sd data «- apply(data[1:6], 2, sd) 


BATT SST See, BITI Tah Teanga. WES AUS Aeevapply(). BREXapplyORS 
第 一 个 参数 指定 函数 应 用 的 数据 集 ， 在 该 例子 中 ， 是 指名 为 data 的 数据 集 。 特 别 地 ， 我 们 只 考虑 了 前 6 个 数值 变量 ， 其 他 的 变量 
将 用 于 其 他 目的 。 第 二 个 参数 必须 包含 一 个 向 量 ， 给 出 将 被 应 用 的 函数 的 下 标 。 在 该 例子 中 ，1 表 示 行 ，2 表 示 列 。 第 三 个 参数 
必须 包含 要 应 用 的 函数 。 在 该 例子 中 ， 第 一 行 是 阔 数 mean(0， 第 二 行 是 阔 数 sd0。 结 果 如 下 所 示 : 


> mean data 


mpg cylinders displacement horsepower weight 
23.445918 9.471939 194.411990 104.469388 2977.584184 
acceleration 
15.541327 
> sd data 
mpg cylinders displacement horsepower weight 
7.805007 14.705783 04.644004 38.491160 849.402560 
acceleration 
2.758864 


A Simi di, JAAS), 'EXE— MERE, BEM TASB ABA MCE; 


data scaled «- as.data.frame(scale(data[,1:6],center = mean data, scale = 
sd data)) 


现在 看 看 通过 标准 化 转换 的 数据 : 


head(data scaled, n-20) 


结果 如 下 所 示 : 


> head(data_scaled, n=20) 
mpg cylinders displacement horsepower weight acceleration 


1 -0.69774672 1.4820530 1.07591459 0.6632851 0.6197483 -1.28361760 
2 -1.08211534 1.4820530 1.48683159 1.5725848 0.8422577  Á-1.46485160 
3 -0.69774672 1.4820530 1.18103289 1.1828849 0.5396921 -1.64608561 
4 —0.95399247 1.4820530 1.04724596 1.1828849 0.5361602 -1.28361760 
5 -0.82586959 1.4820530 1.02813354 0.9230850 0.5549969 -1.82731962 
6 -1.08211534 1.4820530 2.24177212 2.4299245 1.6051468 -2.00855363 
7 -1.21023822 1.4820530 2.48067735 3.0014843 1.6204517 -2.37102164 
8 -1.21023822 1.4820530 2.34689042 2.8715843 1.5710052 -2.55225565 
9 -1.21023822 1.4820530 2.49023356 3.1313843 1.7040399 -2.00855363 
10 -1.08211534 1.4820530 1.86907996 2.2220846 1.0270935 -2.55225565 
11 -1.08211534 1.4820530 1.80218649 1.7024847 0.6892089 -2.00855363 
12 -1.21023822 1.4820530 1.39126949 1.4426848 0.7433646 3-2.73348966 
13 -1.08211534 1.4820530 1.96464205 1.1828849 0.9223139 -2.18978763 
14 -1.21023822 1.4820530 2.49023356 3.1313843 0.1276377 -—2.00855363 
15 0.07099053 -0.8629108 -0.77799001 -0.2460146 -0.7129531 -0.19621355 
16 -0.18525522 0.3095711 0.03428778 -0.2460146 -0.1702187 -0.01497955 
17 -0,.69774672 (0:3095711 0.04384399 -0.1940546 -0.2396793 -0.01497955 
19 =0:31337809 0:3095711 0.05340019 -0.5058145 -0.4598340 0.16625446 
19 0.45535916 -0.8629108 -0.93088936 -0.4278746 -0.9978592 -0.37744756 
20 0.32723628 -0.8629108 -0.93088936 -1.5190342 -1.3451622 1.79736053 


现在 将 数据 分 为 训练 集 和 测试 集 : 


index = sample(1:nrow(data),round(0.70*nrow(data))) 
train data <- as.data. frame (data_scaled[index, ] ) 
test data <- as.data.frame(data scaled[-index,]) 


在 代码 的 第 一 行 中 ， 数 据 集 被 分 成 70 : 30， 目 的 是 使 用 70% 的 数据 来 训练 网 络 ， 剩 下 的 30% 用 于 测试 网 络 。 在 第 二 行 和 第 
三 行 中 ， 名 为 data 的 数据 框 的 数据 被 细 分 为 两 个 新 的 数据 框 ， 称 为 train_data 和 test_data。 现 在 必须 建立 提交 给 网 络 的 函数 : 


= names (data_scaled) 
= as.formula(paste("mpg ~", paste(n[!n $in$ "mpg"], collapse = " + "))) 


hh 3 
| | 


在 第 一 行 中 ， 使 用 浮 数 names() 查 看 数据 框 data_scaled 的 所 有 变量 名 称 。 在 第 二 行 中 ， 构 建 将 用 来 训练 网 络 的 公式 。 这 个 
公式 代表 什么 呢 ? 


由 消 数 neuralnet0 拟 合 的 模型 以 紧凑 的 符号 形式 指定 。 运 算 符 ~ 是 这 些 模型 形成 的 基础 。 形 如 y~ 的 模型 表达 式 意 味 着 响应 
变量 y 由 预测 变量 (由 模型 中 的 符号 指定 ) 建 模 。 这 样 的 模型 由 运算 符 + 分 隅 的 一 系列 术语 组 成 。 术 语 本 身 由 变量 和 因子 名 称 组 
R., BZA C) 分 隔 。 这 些 术语 意味 着 木 语 中 出 现 的 所 有 变量 和 因子 的 相互 作用 。 现 在 看 看 所 设置 的 公式 : 


> £ 
mpg ~ cylinders + displacement + horsepower + weight + acceleration 


现在 建立 和 训练 网 络 。 
第 3 草 提 人 到， 要 选择 最 佳 数 量 的 神经 元 ， 需 要 知道 ; 
. 神经 元 的 个 数 过 少 会 导致 系统 的 高 误差 ， 因 为 预测 因素 对 于 少量 神经 元 来 说 可 能 过 于 复杂 以 至 于 难以 捕捉 。 


“ 大 量 神经 元 可 能 会 对 训练 数据 造成 过 拟 合 ， 而 不 能 很 好 地 泛 化 。 


. 每 个 隐 含 层 的 神经 元 个 数 应 该 接近 输入 层 和 输出 层 的 神经 元 个 数 ， 可 能 是 两 者 的 均值 。 
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. 每 个 隐 含 层 的 神经 元 个 数 不 应 该 超过 输入 层 神 经 元 个 数 的 两 倍 ， 否 则 可 能 


在 这 个 示例 中 ， 有 5 个 输入 变量 Andes displacement, housepower, weight#Jacceleration) 和 一 个 输出 变量 


(mpg) 。 我 们 选择 在 隐 含 层 中 设置 3 个 神经 


net = neuralnet(f,data-train data,hidden-3,linear.output-TRUE) 


23hiddenfzl—^ Ser Massena Nahas, linear. output H FERT e 
(linear.output=TRUE) 还 是 分 类 (linear.output-FALSE) , 


在 默认 情况 下 ，neuralnet(0 中 使 用 的 算法 基于 无 加 权 回 漳 的 弹性 反 向 传播 ， 并 且 额 外 修改 一 个 学 习 率 ， 或 者 是 与 最 小 绝对 
梯度 (small absolute gradient, sag) 相关 的 学 习 率 或 者 是 最 小 学 习 率 (smallest learning rate, sir) AB, RAŽ 
neuralnet() 返 回 一 个 类 nn 的 对 象 。 类 nn 的 对 象 是 一 个 包含 下 表 所 示 的 元 素 的 列表 。 


元 素 描述 
call DU AAC P5738] H PRI a 
response 从 参数 data 中 提取 
covariate 从 参数 data 中 提取 的 变量 
model.list 包含 从 参数 formula 中 提取 的 协 变量 和 response 变量 的 列表 
err.fct TRAE PRBS 
act.fct vicis PRIA 
data 数据 参数 
net.result 包含 神经 网 络 每 次 迭代 的 总 体 结果 的 列表 
weights 包含 神经 网 络 每 次 迭代 的 拟 合 权 重 的 列表 
generalized.weights 包含 神经 网 络 每 次 迭代 的 沁 化 权重 的 列表 


包含 达到 的 国 值 、 所 需 步 又 、 误 差 、AIC 和 BIC (如果 计 算 ) 的 矩阵， 以 及 每 次 迭代 
的 权重 。 每 列 代 表 一 次 迭代 
startweights 包含 神经 网 络 每 次 迭代 的 初始 权重 的 列表 


result.matrix 


为 了 产生 模型 结果 的 汇总 ， 使 用 函数 summary(): 


> summary (net) 


Length Class Mode 
call 9 —none- call 
response 214 —none- numeric 
covariate 1370 —none- numeric 
model.list 2 —none- list 
err.fct 1 —none- function 
act.fct 1 —none- function 
linear.output 1 -—none- logical 
data 6 data.frame list 
net.result xd —none- list 
weights 1 -—none- list 
startweights 1 -—none- list 
generalized.weights 1 -—none- list 
result.matrix 25 —none- numeric 


种 经 网 络 模 型 的 每 个 元 泰 都 显示 出 3 个 特征 : 

‘Length: 元 素 的 长 度 ， 即 包含 多 少 个 此 类 型 的 元 素 。 
Class: 包含 元 率 类 的 具体 说 明 。 

: Mode: 元 素 的 类 型 (Bh. FDA. HR. WHF) 。 


为 了 绘制 包含 每 个 连接 上 的 权重 的 模型 图 表示 ， 可 以 使 用 立 数 plot0。 辫 数 plot0 是 用 于 表示 R 中 对 象 的 泛 型 疯 数 。 泛 型 函数 
意味 着 它 适 用 于 不 同类 型 的 对 销 ， 从 变量 到 表格 再 到 复杂 的 消 数 输出 ， 产 生 不 同 的 结果 。 它 应 用 于 一 个 分 类 变量 ,会 产生 一 个 条 
WEA; 应 用 于 基数 变量 ,会 产生 散 点 图 ; 应 用 于 相同 的 变量 ， 但 对 其 绘制 表格 ， 即 为 了 显示 其 频率 分 布 ， 会 产生 一 个 直方 图 ; 应 


用 于 两 个 变量 ,一 个 分 类 变量 和 一 个 基数 变量 ， 它 会 产生 一 个 箱 形 图 。 


plot (net) 


绘制 得 到 的 神经 网 络 如 下 图 所 示 。 


cylinders $ 
s, 


displacement 
horsepower 
weight 
acceleration 
Error: 21.800203 Steps: 9378 
在 前 面 的 图 中 ， 黑 线 (从 输入 节操 开始 的 线 ) 展示 每 个 层 之 间 的 连接 以 及 每 个 连接 上 的 权重 ， 而 灰 线 (这些 线 从 以 1 来 区 分 


的 偏差 节点 开始 ) 展示 在 每 一 步 添加 的 偏 寿 。 可 以 认为 偏 笑 是 线性 模型 的 截 距 。 


尽管 已 经 了 解 了 很 多 作为 神经 网 络 基础 的 机 制 ， 但 是 在 很 多 方面 ， 我 们 所 建立 和 训练 的 模型 仍然 是 一 个 黑 盒 子 。 拟 合 、 权 重 
和 模型 不 够 清晰 。 如 果 认 为 训练 算法 是 收敛 的 ， 那 么 模型 束 可 以 使 用 了 。 


现在 可 以 输出 权重 和 含 差 : 


> netSresult.matrix 


1 
error 21 .800203210980 
reached.threshold 0.009385137179 
steps 9378 .000000000000 
Intercept .to.1llayhid1 -1.324633695625 
cylinders.to.1layhid1 0.291091600669 
displacement.to.llayhidl —-2.243406161080 
horsepower.to.1llayhidl 0.616083122568 
weight .to.1layhidl1l 1.292334492287 
acceleration.to.1llayhidl —0.286145921068 
Intercept .to.llayhid2 —41.734205163355 
cylinders.to.llayhid2 -5.574494023650 
displacement.to.llayhid2 33.629686446649 
horsepower.to.llayhid2 =28 185856598271 
weight.to.llayhid2 —50.822997942647 
acceleration.to.1llayhid2 —5.865256284330 
Intercept.to.llayhid3 0.297173606203 
cylinders.to.1layhid3 0.306910802417 
displacement.to.llayhid3 -5 .897977831914 
horsepower.to.1layhid3 0.379215333054 
weight .to.1layhid3 2.651777936654 
acceleration.to.1llayhid3 -1 .035618563747 
Intercept .to.mpg -0:.57819 7055155 
llayhid.1.to.mpg -3.190914666614 
llayhid.2.to.mpg 0.714673177354 
llayhid.3.to.mpg 1.958297807266 


可 以 看 出 ， 这 些 值 与 网 络 图 中 看 到 的 值 相同 。 例 如 ，cylinders.to.1layhid1=0.291091600669 是 输入 层 第 一 个 节点 与 隐 合 层 
第 一 个 节点 之 间 连 接 的 权重 。 


现在 可 以 使 用 网 络 来 做 出 预测 。 为 此 ， 在 数据 框 test_data 中 留 出 了 30% 的 数据 ， 现 在 是 时 候 使 用 它 了 。 


predict net test <- compute (net,test data[,2:6]) 


在 该 例子 中 ， 将 函数 应 用 到 数据 集 test data, WAZ ~ 6 列 ， 表 示 网 络 的 输入 变量 。 为 了 评估 网 络 性 能 ， 可 以 使 用 均 方 差 
(Mean Squared Error, MSE) 来 衡量 预测 值 与 真实 有 多 大 的 差别 。 


MSE.net «- sum((test data$mpg - 
predict net test$net.result)^2)/nrow(test data) 


这 里 的 test_data$mpg 是 实际 值 ，predict_net _test$net.result 是 分 析 目 标的 预测 值 。 以 下 是 结果 : 


> MSE.net 
[1] 0.2591064572 


这 看 起 来 是 一 个 很 好 的 结果 ， 但 是 将 它 与 什么 进行 比较 呢 7? 为 了 了 解 网 络 预测 的 准确 性 ， 可 以 建立 一 个 线性 回归 模型 : 


Lm Mod «- lm(mpg~., data-train data) 
summary (Lm Mod) 


使 用 消 数 Im 建 立 线性 回归 模型 。 该 函数 用 于 拟 合 线性 模型 ， 它 可 用 于 执行 回归 、 单 层 的 方 磊 分 析 (single stratum analysis 


of variance) 和 协 方 差分 析 。 


为 了 得 到 所 得 模型 拟 合 结果 的 汇总 ， 可 使 用 为数 Summary(0， 返 回 以 下 结果 : 


> summary (Lm_Mod) 


Call: 


lm(formula = mpg ~ ., data train data) 
Residuals: 

Min 10 Median Max 
-1.48013031 -0.34128989 -0.04310873 0.27697893 1.77674878 
Coefficients: 

Estimate Std. Error t value Pr(»|t|) 
(Intercept) 0.01457260 0.03268643 0.44583 0.656080 
cylinders -0.14056198 0.10067461 -1.39620 0.163809 
displacement 0.06316568 0.13405986 0.47118 0.637899 
horsepower —0.16993594 0.09180870 -1.85098 0.065273 
weight —0.59531412 0.09982123 -5.96380 0.0000000077563 *** 
acceleration 0.03096675 0.05166132 0.59942 0.549400 
Signif. codes: 0 **** 0.001 Ss: 0.01 ** 0.05 < 0.1 “= 1 
Residual standard error: 0.5392526 on 268 degrees of freedom 
Multiple R-squared: 0.7183376, Adjusted R-squared: 0.7130827 


F-statistic: 136.6987 on 5 and 268 DF, p-value: < 0.00000000000000022204 


现在 使 用 借助 数据 框 test_data 中 的 数据 建立 的 线性 回归 模型 进行 了 预测: 


predict lm «- predict (Lm_Mod,test_data) 


最 后 ， 计 算 回归 模型 的 MSE : 


MSE.lm «- sum((predict lm - test data$mpg)^2)/nrow(test data) 


以 下 是 结果 : 


> MSE.1m 
[1] 0.3124200509 


比较 两 个 模型 (神经 网 络 模型 与 线性 回归 模型 ) 可 上 太 现 ， 神 经 网 络 再 次 获胜 (0.26 对 0.31) 。 

现在 ， 通 过 绘制 实际 值 与 预测 值 的 天 系 图 来 进行 可 视 化 比较 ， 首 先是 昼 经 网 络 ， 然 后 是 线性 回归 模型 : 

par (mfrow=c (1,2) ) 

plot (test _data$mpg, predict net _test$net.result,col='black',main='Real vs 
predicted for neural network',pch=18, cex=4) 

abline (0,1, lwd=5) 

plot (test_data$mpg, predict _1lm,col='black',main='Real vs predicted for 


linear regression', pch=18, cex=4) 
abline (0,1, lwd=5) 


下 图 展示 了 神经 网 络 模型 (AM) 和 线性 回归 模型 ( 右 侧 ) 在 测试 集 上 的 性 能 比较 。 


Real vs predicted for neural network Real vs predicted for linear regression 


predict net_test$net result 
predict Im 


-1 0 1 2 3 -| 0 1 2 3 


test data$mpg test data$mpg 


正如 我 们 所 看 到 的 ， 即 使 没有 发 现 有 很 大 的 差别 ， 但 是 神经 网 络 模型 的 预测 结果 比 线性 回归 模型 更 集中 。 


[1] 1 英里 =1609.344 米 。1 英 加 仑 =4.54609 立 方 分 米 。 


编辑 注 
[2] 1 马力 =745.7 瓦 。 


编辑 注 


[3] 1 立方 英寸 =1.63871 X10-5 立 方 米 。 


编辑 注 


[4] 1 磅 =0.45359237 千 克 。 编辑 注 


[5] 1 英里 /小 时 =0.44704 米 / 秒 。 编辑 注 


5.2 ”使 用 神经 网 络 对 乳腺 癌 进 行 分 类 


扰 房 是 由 一 套 腺 体 和 脂肪 组 织 组 成 的 ， 置 于 皮肤 和 胸壁 之 间 。 事 实 上 ， 它 不 是 一 个 单一 的 腺 体 ， 而 是 一 组 称 为 小 叶 的 腺 体 结 
构 ， 连 在 一 起 形成 一 个 叶 。 在 乳房 中 ， 有 15 ~ 20 个 叶 。 奶 水 从 小 叶 通 过 乳 管 到 达 乳 头 。 


如 果 肪 腺 癌 长 期 没有 被 友 现 和 得 人 治疗， 那么 会 是 一 种 严重 疾病 。 乳 脾 癌 是 由 乳腺 中 某 些 转化 为 恶性 的 细胞 不 受 控 制 地 增殖 
引起 的 。 这 意味 着 它们 有 能 力 将 自己 从 产生 它们 的 组 织 中 分 离 出 来 ， 侵 入 周围 组 织 ， 并 最 终 侵 入 身体 的 其 他 器 官 。 从 理论 上 讲 ， 
癌症 可 以 由 所 有 类 型 的 她 房 组 织 形 成 ， 但 是 通常 是 来 自 腺 细胞 或 形成 导管 壁 的 那些 细胞 。 


这 个 案例 的 目的 是 识别 多 个 可 能 是 良性 或 恶性 的 细胞 类 别 。 为 此 ， 将 使 用 包含 在 添加 包 mlbench 中 的 名 为 
BreastCancer (AUER RZ/NZLR SUB) 的 数据 集 里 的 数据 。 这 些 数 据 可 从 UCI 机 器 学 习 数 据 库 中 获取 ， 当 Wolberg 博 士 报 
告 了 他 的 临床 病例 时 ，DNA 样 本 定期 被 收集 。 数 据 库 因此 反映 了 这 类 数据 按时 间 顺 序 的 分 组 。 此 分 组 信息 一 旦 显示 ， 就 从 数据 
本 身 中 删除 。 除 第 一 个 变量 外 ， 每 个 变量 都 被 转换 为 11 个 基本 数值 属性 ， 其 值 汉 围 为 0 ~ 10。 这 个 数据 包含 16 个 缺失 值 。 


数据 框 在 11 个 变量 中 包含 699 个 观察 值 一 1 是 一 个 字符 变量 ，9 是 有 序 或 名 义 变量 ， 以 及 1 个 目标 类 : 
| Id: 样本 编码 。 


- Cl.thichness: 块 厚度 。 


: Cellsize: 细胞 大 小 的 一 致 性 。 

- Cell.shape: 细胞 形状 的 均匀 性 。 
: Marg.adhesion: 边缘 附着 力 。 

- Epith.c.size: 单 上 皮 细 胞 大 小 。 
: Bare.nuclei: 裸 核 。 
-Blcromatin: 微 受 激 染 色 体 。 

- Normal.nucleoli: 正常 核 仁 。 

- Mitoses: 有丝分裂。 

: Class: A. 


QOBURTIAA, IX MIF RS BARS SRS HEBER SS. LA RELIC BIER BRABUS : 
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library ("mlbench") 
library (neuralnet) 


data (BreastCancer) 
summary (BreastCancer) 


mvindex = unique (unlist (lapply (BreastCancer, function (x) which (Is .na 
(x))))) 


data cleaned <- na.omit (BreastCancer) 
summary (data cleaned) 


boxplot (data cleaned[,2:10]) 
hist(as.numeric(data cleaned$Mitoses)) 


par (mfrow=c (3, 3)) 

hist (as.numeric(data_cleaned$Cl.thickness) ) 
hist (as.numeric(data_cleaned$Cell.size) ) 

hist (as .numeric(data_cleaned$Cell. shape) ) 

hist (as.numeric(data_cleaned$Marg.adhesion) ) 
hist (as.numeric(data_cleanedSEpith.c.size) ) 
hist (as.numeric(data_cleaned$Bare.nuclei) ) 
hist (as.numeric(data_cleaned$Bl.cromatin) ) 
hist (as.numeric(data_cleaned$Normal.nucleoli) ) 
hist (as.numeric(data_cleaned$Mitoses) ) 


str(data cleaned) 

input«-data cleaned[,2:10] 

indx «- sapply(input, is.factor) 

input «- as.data.frame(lapply(input, function(x) 
as.numeric(as.character (x)))) 


max data «- apply(input, 2, max) 
min data «- apply(input, 2, min) 


input_scaled <- as.data.frame(scale(input, center = min_data, scale = 
max data - min data)) 
View(input scaled) 


Cancer«-data cleaned$Class 
Cancer<-as .data. frame (Cancer) 
Cancer<-with (Cancer, data.frame (model .matrix (~Cancer+0) ) ) 


final data<-as.data.frame(cbind(input_scaled, Cancer) ) 


index = sample(1:nrow(final data) ,round(0.70*nrow(final_ data) ) ) 
train data <- as.data.frame(final_data[index, ] ) 
test data <- as.data. frame (final_data[-index, ] ) 


names (final data[1:9]) 
= as.formula (paste("Cancerbenign + Cancermalignant ~", paste(n, collapse 


W + ae i 


lt th 5 
| 


net = neuralnet(f,data-train data, hidden=5, linear .output=FALSE) 
plot (net) 


predict net test «- compute(net,test data[,1:9]) 
predict result«-round(predict net test$net.result, digits = 0) 
net.prediction - c("benign", "malignant")[apply(predict result, 1, 


which.max)] 
predict.table - table(data cleaned$Class[-index], net.prediction) 
predict.table 


library (gmodels) 
CrossTable(x = data cleaned$Class[-index], y = net.prediction, 


prop.chisq=FALSE) 
Ht Ht Hi SERE HH FE HE FE HE HE HH HE HE FE FE FE HE ETE E HE E FE HE E FE ETE HEH HE E FE HEHE FE HE E FE E HE FE FE FE FE FE E HE E FE HE FE FE E HE E HE HE HEH HE ER HE 


现 开始 逐 行 分 析 代 码 ， 详 细 解 释 用 于 获取 结果 的 所 有 函数 : 


library ("mlbench") 
library ("neuralnet") 


Rea UIBBJBUPA TT BFS 1TH AN. 


Qz: 记 住 ， 想 要 安装 初始 的 R 中 不 存在 的 添加 包 ， 必 须 使 用 函数 install.package。 这 是 安装 添加 包 的 主要 函数 。 它 将 目标 
添加 包 的 名 字 作 为 向 量 参 数 ， 从 仓库 中 下 载 添加 包 并 进行 安装 。 这 个 函数 只 需要 使 用 一 次 ， 不 必 每 次 都 运行 这 行 代码 。 


添加 包 mlbench 包 合 一 系列 人 工 的 和 现实 世界 的 机 器 学 习 基 准 测试 问题 ， 包 括 例如 来 目 UCI Repository 的 几 个 数据 集 


添加 包 neuralnet 用 于 训练 使 用 反 向 传播 的 神经 网 络 、 包 含 或 不 包含 加 权 回 溯 的 RPROP 或 修改 后 的 GRPROP。 该 函数 允许 通 
过 自 定义 误差 和 激活 函数 进行 灵活 设置 。 此 外 ， 可 以 执行 广义 权重 的 计算 。 下 表 显 示 了 从 官方 文档 中 提取 的 神经 网 络 添加 包 的 简 
要 说 明 。 


neuralnet: 神经 网 络 的 训练 

T 

训练 使 用 反 向 传播 的 神经 网 络 ， 包 含 (Riedmille, 1994) 或 不 包含 权重 回溯 ( Riedmille, 1993 ) 的 弹性 反 向 
传播 ， 或 由 Anastasiadis A ( 2005 ) 修改 的 全 局 收敛 版 本 。 该 添加 包 可 以 通过 自 定义 误差 和 激活 最 数 进行 灵 
活 设 置 。 

详细 信息 

添加 包 : neuralnet 

版 本 : 1.33 

日 期 : 2016-08-05 

许可 证 : GPL-2 

作者 : 

Stefan Fritsch 

Frauke Guenther 


Marc Suling 
Sebastian M. Mueller 


回 到 代码 ， 此 时 ， 必 须 加 载 要 分 析 的 数据 : 
data (BreastCancer) 


使 用 这 个 命令 ， 将 加 载 上 面 提 到 的 添加 包 mlbench 中 名 为 BreastCancer 的 数据 集 。 


5.2.1 PRAT 
在 通过 建立 和 训练 神经 网 络 开 始 数据 分 析 之 前 ， 先 进行 探索 性 分 析 ， 以 了 解数 据 是 如 何 分 布 的 ， 并 提取 初步 的 信息 。 
summary (BreastCancer) 
使 用 这 个 命令 ， 将 得 到 一 个 使 用 函数 summary() 得 到 的 简短 摘要 。 


Qz: 请 记 住 ， 函 数 summaty0 是 一 个 通用 函数 ， 用 于 生成 各 种 模型 拟 合 函 数 结 果 的 汇总 。 该 函数 调用 依赖 于 第 一 个 参数 


的 类 的 特定 方法 。 


在 这 个 案例 中 ， 该 函数 应 用 于 数据 框 ， 结 果 显示 在 以 下 屏幕 截图 中 。 


> summary(BreastCancer) 


Id Cl.thickness Cell.size Cell.shape Marg.adhesion Epith.c.size 
Length: 699 1 7145 1 :384 1 :353 1 :407 2 : 386 
Class :character 5 130 10 -  $J * oS 2 : 3B 3 s 22 
Mode :character 3 :108 3 t $2 10 58 3 : 58 4 : 48 
4 LAM 2 : 45 3 56 10 - 35 1 : 47 
10 : 69 4 : 40 4 : 44 4 > Sa 6 > A 
2 :30 05 : 30 5 : 34 8 : 25 5 : 39 
(Other) :117 (Other): 81 (Other): 95 (Other): 63 (Other): 66 

Bare.nuclei Bl.cromatin Normal.nucleoli Mitoses Class 

1 :402 2 :166 1 :443 1 :579 benign :458 

10 11322 3 :165 10 : 61 2 : 35 malignant:241 

2 ia Ud “152 3 : 44 3 33 

5 k a / = ?3 2 36 10 14 

3 B c0 4 : 40 8 : 24 4 " A4 

(Other): 61 5 : 34 6 |: 22 7 : 49 

NA's > 125 (Other): 69 (Other): 69 (Other): 17 


国 数 sSummary() 为 每 个 变量 返回 一 组 统计 信息 。 特 别 地 ， 它 有 利于 突出 显示 诊断 为 癌症 肿块 的 那 类 变量 class。 在 这 个 案例 
中 ， 检 测 到 458 例 民 性 病例 和 241 例 恶性 病例 。 另 一 个 突出 显示 的 内 容 是 变量 Bare.nuclei， 这 个 变量 检测 到 16 个 缺失 值 。 


缺失 值 是 未 知 值 。 在 R 中 用 NA 符号 表示 缺失 值 。 NA 是 属性 与 其 他 值 不 同 的 特殊 值 。 NA 是 R 中 极 少 数 的 保留 字符 之 一 ， 即 不 
能 对 NA 进行 赋值 。 例 如 ， 当 在 Excel 电 子 表格 中 读 取 空 日 单元 格 时 ， 可 能 会 出 现 NA。 当 尝试 某 些 非 法 或 不 合理 的 操作 时 ， 也 会 
得 到 NA。 缺 失 值 不 一 定 是 由 错误 引起 的 ， 在 现实 生活 中 ， 往 往 是 因为 缺乏 检测 。 


因此 目 然 产生 了 一 个 问题 : 是 人 否 担心 仔 人 在 缺失 值 》 不 笠 的 是 ， 答 案 是 肯定 的 ， 因 为 几乎 每 个 企 NA 上 进行 的 操作 都 会 产生 
NA。 那 么 数据 集中 仔 人 在 缺失 值 可 能 会 造成 稍 后 的 计算 错误 。 这 融 是 为 什么 要 被 迫 删 除 缺 失 值 。 


为 了 删除 缺失 值 ， 必 须 首 先 识别 它们 。 用 遂 数 is.na0 可 找到 缺失 值 。 这 个 遂 数 返回 一 个 与 其 参数 长 度 相同 的 逻辑 向 量 ，T 表 
示 缺 失 值 ，F 表 示 非 缺失 值 。 想 要 知 道 缺失 值 的 系 引 是 理所当然 的 ， 而 用 阔 数 which( 可 以 做 到 这 一 点 。 要 碍 找 数据 框 中 具有 至 少 
一 个 NA 的 所 有 行 ， 请 尝试 以 下 操作 : 


mvindex = 


(x) ) ) ) ) 


unique (unlist (lapply (BreastCancer, function (x) which (Is .na 


国 数 lapply(0 将 函数 应 用 于 每 列 ， 并 返回 一 个 列表 ， 列 表 第 i 个 元 素 是 一 个 向 量 ， 该 向 量 包含 询 j 中 具有 缺失 值 的 元 素 的 索引 。 
国 数 unlist0 将 该 列表 变 成 一 个 向 量 ， 而 轴 数 unique() 将 删除 重复 项 。 


现在 我 们 得 到 了 存在 缺失 值 (NA) 的 行 数 ， 如 下 所 示 : 


> mvindex 
[1] 24 41 140 146 159 165 236 250 276 293 295 298 316 322 412 618 


BSE PRERAE, FEE CIEE, BARR MRIS ERRET. SEE IX— Ra, BILGE FER 


: na.omit: 丢弃 任何 存在 缺失 值 的 行 并 永远 删除 它 。 


na.exclude: 丢弃 存在 缺失 值 的 行 ， 但 记 孙 它们 的 位 置 。 例 如 ， 当 进行 预测 时 ， 最 终 会 得 到 一 个 长 度 为 原始 响应 变量 长 度 
的 向 量 。 


使 用 第 一 个 选项 ， 以 便 永远 消除 存在 缺失 值 的 行 : 


data cleaned «- na.omit (BreastCancer) 


SERRA ERR Y TERKAIT, IBEEX[SRIERZIsummary: 


summary (data cleaned) 


结果 如 下 图 所 示 。 
> summary(data cleaned) 
Id Cl.thickness Cell.size Cell.shape Marg.adhesion Epith.c.size 
Length:683 1 :3398 2 373 à :346 1 :393 2 :376 
Class :character 5 :128 10 rar 2 E58 2 :58 3 A it 
Mode :character 3 : 104 3 : 42 10 : 58 3 : 58 4 : 48 
4 e 29 2 : 45 3 s 832 a > S5 1 : 44 
10 : 69 4 : 3H : : 43 : : 33 6 : 40 
2 "^" 53 30 32 25 5 39 
(Other): 114 a 78 -—. 93 — 61 COH y: 65 

Bare.nuclei Bl.cromatin Normal.nucleoli Mitoses Class 

1 :402 3 :161 1 :432 1 : 563 benign :444 

10 s132 2 :160 10 : 60 2 : 35 malignant:239 

2 t 30 l :150 3 s A2 3 : 33 

5 ; sv 7 5.434 2 : 36 10 : 14 

3 : ZB 4 : 39 8 - Zs 4 12 

8 -4 ) 5 : 34 6 = 0 7 2: HB 

CONES 40 (Other): 68 (Other): 68 (Other): 17 


正如 现在 所 看 到 的 那样 ， 不 再 有 缺失 值 。 


现在 开始 进行 探索 性 分 析 。 可 以 做 的 第 一 件 事 是 绘制 变量 的 箱 形 图 ， 这 个 想法 可 通过 得 看 阔 数 Summary(0 的 结果 实现 。 当 
然 ， 我 们 只 会 将 输入 限制 为 数值 变量 。 


boxplot (data cleaned[,2:10]) 


图 是 清洗 后 的 数据 集 (data cleaned) 中 的 数值 变量 (第 2~ 10 列 ) 的 箱 形 图 。 
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Clthickness Cell size Cel shape Marg.adhesion Epith.c.size — Bare nuclei Bl.cromatin Normal.nucleoli — Mitoses 


由 图 可 知 有 几 个 变量 存在 异常 值 ，Mitoses 是 包含 异常 值 最 多 的 变量 。 


人 证 示 :异常 值 在 数值 上 与 所 收集 的 其 他 数据 不 同 。 从 包含 异常 值 的 桩 未 中 得 到 的 统计 数据 可 能 会 造成 误导 。 


为 了 更 好 地 识别 异 剃 值 的 存在 ， 可 以 绘制 数据 库 中 变量 的 直方 图 。 直 万 图 是 数值 数据 分 布 的 精确 图 形 表示 。 它 是 一 个 连续 变 
量 的 概率 分 布 的 估计 。 要 构建 直方 图 ， 第 一 步 是 指定 值 的 汉 围 (即将 整个 值 汽 围 划 分 为 一 系列 区 间 ) ， 然 后 计算 每 个 区 间 有 多 少 
个 值 。 区 间 通 党 被 措 定 为 变量 的 连续 的 、 不 重 革 的 区 间 。 区 间 必 须 相 邻 ， 并 且 通 常 具有 相同 的 尺寸 。 通 过 直方 图 ， 可 以 看 到 数据 
分 布 中 的 中 间 位 置 、 数 据 距 于 中 | 间 位 置 有 多 近 以 及 可 能 出 现 异常 值 的 位 置 。 


在 R 环 境 中 ， 可 以 使 用 消 数 hist0 简 单 地 生成 直方 图 ,该 消 数 计算 给 定数 据 值 的 直方 图 。 我 们 必须 把 数据 集 的 名 称 放 在 这 个 泛 
数 的 括号 中 。 要 在 同一 窗口 绘制 多 个 图 ， 可 使 用 已 在 前 面 例子 中 出 现 的 立 数 par(): 


par (mfrow=c(3, 3)) 


hist (as 
hist (as 
hist (as 
hist (as 
hist (as 
hist (as 
hist (as 
hist (as 
hist (as 


.numeric (data cleaned$Cl.thickness)) 
.numeric (data cleaned$Cell.size)) 
.numeric (data cleaned$Cell.shape)) 
.numeric (data cleaned$Marg.adhesion)) 
.numeric (data cleaned$Epith.c.size)) 
.numeric (data cleaned$Bare.nuclei)) 
.numeric (data cleaned$Bl.cromatin)) 
.numeric (data cleaned$Normal.nucleoli)) 
.numeric (data cleaned$Mitoses)) 


由 于 函数 hist0 需 要 一 个 向 量 作为 参数 ， 所 以 使 用 函数 as.numeric0 将 包含 在 数据 集 列 中 的 值 转换 为 数值 向 量 。 这 个 函数 创 
建 或 强制 转换 数值 类 型 的 对 象 。 下 面 的 图 展示 了 清洗 后 的 数据 集 (data cleaned) 中 的 数值 变量 (第 2 ~ 10 列 ) 的 直方 图 。 


Frequency Frequency 


Frequency 
0 50 100 150 200 250 300 


Histogram of as.numeric(data_cleaned$Cl.thickness) Histogram of as.numeric(data cleaned$Cell.size) Histogram of as.numeric(data cleaned$Cell.shape) 
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as.numeric(data cleanedSBl.cromatin) as.numeric(data cleanedSNormal.nucleoli) as.numeric(data cleanedSMitoses) 


由 直方 图 可 看 出 ， 一 些 变量 可 能 存在 异 单 值 。 


5.2.2 ”神经 网 络 模型 


正如 前 前 ， 必 须 进行 数据 的 标准 化 。 在 这 种 情况 下 ， 将 采用 最 小 -最 大 标准 化 法 。 
(9... 请 记 住 ， 在 训练 神经 网 络 之 前 对 数据 进行 标准 化 是 一 种 很 好 的 做 法 。 通 过 标准 化 ， 数 据 的 单位 被 消除 ， 从 而 你 可 


以 轻松 地 从 不 同 的 角度 比较 数据 。 


想 情 况 下 ， 每 个 基本 结构 


在 开始 之 前 ， 请 使 用 为数 str( 做 进一步 检查 。 该 国 数 展示 了 对 象 的 内 部 结构 ， 是 一 个 诊断 国 数 ， 可 蔡 代 函数 summary(0。 理 
只 显示 一 行 。 它 特别 适合 于 紧凑 地 显示 (ARSE) 列表 的 (缩写) 内容 。 它 可 对 任何 R 对 象 给 出 


合理 的 输出 。 


str(data cleaned) 


结果 如 下 图 所 示 。 


> str(data_cleaned) 
'data.frame': 683 obs. of 11 variables: 


| AMAA U^ U^ Uu HM A un un un 


Id : chr "1000025" "1002945" "1015425" "1016277" ... 

Cl.thickness -是 w/ 130 Waves. 1'«2«4«3«4—«4,* 55532604 B17244 wx 
Cell.size : Ord. factor wi 10 levels "1"42"'3"€4"€,.2 1314181101112. 
Cell.shape : Ord.factor w/ 10 levels "1' '«"2"«"3" «"4"«..: 和 OE 22 ks 
Marg.adhesion : Ord.factor w/ 10 levels "1"«"2"«"3"«"4"« 158212215381111 
Epith.c.size : ord.Tactor w/ 20 levels 1'«2—3«4«.:2723272222 
Bare.nuclei : Factor w/ 10 levels "1","2" CR, E TE 242 28 102111 

Bl. cromatin . tector wir 2G fevers Ta Eoad Wanna aea 24. 2 . 
Normal. nucleoli: Factor w/ 10 levels Bge ge eg" "g", EEF TENETE YF 
Mitoses : Factor w/ 9 levels 17,727, "Wa aua M. TESTTE D. 

Class : Factor w/ 2 levels "benign" ,"malignant": 1 0112121213.- 
attr(*, "na. action "Y=Class 'omit' Named int [1:16] 24 41 140 146 159 165 236 250 276 293 


.- attr(*, "names")- chr [1:16] "24" "41" "140" "146" 


可 以 注意 到 ， 变 量 作 大 


input«-data cleaned[,2:10] 

indx «- sapply(input, is.factor) 

input «- as.data.frame(lapply(input, function(x) 
as.numeric(as.character (x)))) 


首先 识别 因子 类 型 的 变量 ， 然 后 将 它们 转换 为 数值 类 型 。 现 在 可 以 进行 标准 化 了 。 


在 本 例 中 ， 将 使 用 最 小 -最 大 标准 化 法 (通常 称 为 特征 缩放 ) 来 获取 [0，1] 沁 围 内 的 所 有 缩放 数据 。 达 到 此 目的 的 公式 如 


| X—x 


min 


X max X min 


CMW RENIN ITAA, VTS See ANSE. Alt, sesefeRdeRSEXapply. ZAROBE 
BE ABA VA — TREN, REA, SRB. WR T AASR. 


X 


"scaled “ 


max data «- apply(data cleaned[,2:10], 2, max) 


EX rapplyBJ8 — 1-38 EXE RLFBVA ERES ESSE, RMIT, SB datak. SB TSMR TM 
， 给 出 将 被 应 用 的 函数 的 下 标 。 在 我 们 的 例子 中 ，1 表 示 行 ，2 表 示 列 。 第 三 个 参数 必须 包含 要 应 用 的 函数 。 在 我 们 的 例子 
， 是 函数 max。 接 下 来 要 做 的 是 计算 每 列 的 最 小 值 : 


- qu 


min data <- apply (data cleaned[,2:10], 2, min) 


最 后 ， 为 了 标准 化 数据 ， 使 用 遂 数 scale()， 它 是 一 个 通用 遂 数 ， 其 默认 方法 是 数值 矩阵 的 列 中 心 化 和 /或 标准 化 ， 如 以 下 代 
码 所 示 : 


data scaled «- scale(data cleaned[,2:10],center = min data, scale = 
max data - min data) 


为 了 确认 数据 是 否 完 成 了 标准 化 ， 现 来 看 看 所 创建 的 新 矩阵 的 前 20 行 。 为 此 ， 要 使 用 函数 View(0， 结 果 如 下 。 


| Y Filter 
CLthickness Cellsize CelLshape Marg.adhesion Epith.csize Bare.nuclei BLcromatin Normal.nucleoli Mitoses 
1 0.4444444 0.0000000 0,0000000 0.0000000 0.1111111 0.0000000 4 0.222222? 0.0000000  0.0000000 
2 0.4444444 0,3333333  0.3333333 0.4444444 0,6666667 1.0000000 4 0.2222222 0.1111111  0.0000000 
3 0.2222222 | 0.0000000 — 0.0000000 0.0000000 01111111  0.1111111 0.2222222 0.0000000 0.0000000 
4 0.5555556 0.7777778 0.7777778 0.0000000 | 0.2222222 0,3333333 0.2222222 0.6666667  0.0000000 
5 0.3333333  0.0000000 0.0000000 0.2222222  0.1111111  0.0000000 0.222222? 0.0000000 0.0000000 
6 0.7777778 1.0000000  1.0000000 0.7777778 0.6666667 1.0000000 0.8888889 0.6666667 0.0000000 
7 0.0000000  0.0000000  0.0000000 0.0000000 — 0.1111111 . 1.0000000 0.222222? 0.0000000 — 0.0000000 
8 01111111 0.0000000 )0.1111111 0.0000000 — 0.1111111 — 0.0000000 4 0.222222? 0.0000000  0.0000000 
9 0.111111 0.0000000  0.0000000 0.0000000 0.1111111  0.0000000 0.0000000 0.0000000  0.4444444 
10 . 0.3333333 0.1111111  0.0000000 0.0000000 — 0.1111111 . 0.0000000  0.1111111 0.0000000 0.0000000 
11 0.0000000 0.0000000 0.0000000 0.0000000  0.,0000000 ^ 0.0000000 4 0.222222? 0.0000000 — 0.0000000 
12 0.1111111  0.0000000  0.0000000 0.0000000  0.1111111 0.0000000 — 01111111 0.0000000 | 0.0000000 
13 0.4444444 0.2222222 0,2222222 0.2222222  0.1111111 — 0.2222222 0.3333333 0.3333333  0.0000000 
14 0.0000000 0.0000000 0.0000000 0.0000000 | 0.1111111 . 0.2222222 0.2222222 0.0000000 0.0000000 
15 0.7777778  0.6666667  0.4444444 1.0000000 ^ 0.6666667 0.8888889 ^ 0.4444444 0.4444444  0.3333333 
16 0.6666667 0.3333333  0.5555556 0.3333333 ， 0.5555556 4 0.0000000 4 0.3333333 0.2222222  0.0000000 
17 0.3333333  0.0000000 0.0000000 0.0000000 — 0.1111111 — 0.0000000 0.1111111 0.0000000  0.0000000 
18  . 0.3333333 0.0000000  0.0000000 0.0000000 — 0.1111111 0.0000000  0.2222222 0.0000000 | 0.0000000 
19 1.0000000 0.6666667 0.6666667 0.5555556  0.3333333 1.0000000 4 0.3333333 0.0000000 | 0.1111111 
20 ^  0.5555556 0.0000000 0.0000000 0.0000000 | 0.1111111 A 0.0000000 0.2222222 0.0000000 ， 0.0000000 
Showing 1 to 20 of 683 entries 


正如 现在 所 看 到 的 ， 数 据 在 0 和 1 之 间 。 此 时 ， 重 建 数据 集 ， 添 加 表示 癌症 诊断 结果 (良性 或 


class) 。 这 个 话题 需要 引起 我 们 的 注意 : 正如 前 文 所 见 ， 这 个 变量 (class) 是 分 类 变量 ,特别 地 ， 在 数据 框 中 以 因子 形式 存 
在 ， 所 以 为 了 能 够 正确 地 在 整个 网 络 中 使 用 ， 必 须 对 它 进 行 转换 。 我 们 的 目标 变量 是 一 个 二 值 变量 (只 有 两 个 值 : benign 和 


malignant) ， 因 此 可 以 很 容易 地 转化 为 两 个 虚拟 


Qaz 虚拟 变量 取 值 0 或 1 ， 


PrE 
AZ ER. 


别 表示 不 存在 或 存在 预期 会 改变 结果 的 某 种 分 类 效应 


IUS 


o 


NM lx | 


性 ) 的 目标 变量 ( 即 变 量 


我 们 要 做 的 是 从 目标 变量 class 中 创建 两 个 新 的 变量 (Cancerbenign 和 Cancermalignant) 。 当 变量 class 中 出 现 benign 值 
时 ， 变 量 Cancerbenign 取 值 为 1， 在 其 他 情况 下 取 值 为 0。 相 反 ， 当 变量 class 中 出 现 malignant 值 时 ， 变 量 Cancermalignant 取 
值 为 1， 在 其 他 情况 下 取 值 为 0。 


Cancer«-data cleaned$Class 
Cancer«-as.data.frame (Cancer) 
Cancer<-with (Cancer, data.frame (model.matrix(~Cancer+0) ) ) 


为 了 得 到 这 两 个 新 的 虚拟 变量 ， 可 使 用 函数 model.matrix0。 访 函数 通过 将 因子 扩展 到 一 组 虚拟 变量 (取决 于 对 比 )， 并 以 类 
似 的 方式 扩展 交互 ， 从 而 创建 一 个 模型 和 矩阵。 最后， 将 新 变量 添加 到 | 数据 集中 : 


final data-c-as.data.frame(cbind(input scaled, Cancer) ) 


现在 是 时 候 训 | 练 网 络 了 。 


5.2.3 ”网络 训 


练 阶段 


人 工 神 经 网 络 由 并 行 操作 的 简单 元 素 组 成 。 网 络 元 素 之 间 的 连接 是 决定 网 络 冰 数 的 基础 。 这 些 连 接 通 过 它们 的 权重 影响 结 
果 ， 且 在 昼 经 网 络 训练 阶段 调整 权重 。 右 图 比较 了 串 行 处 理 和 并 行 处 理 。 


PITAR EE 


然后 ， 在 训练 阶段 ， 通 过 改变 连接 权重 调节 网 络 ， 使 得 特定 的 输入 产生 特定 的 目标 。 例 如 ， 可 以 通过 比较 输出 (实际 计算 的 
结果 ) 和 目标 值 ( 想 要 得 到 的 结果 ) 来 调整 网 络 ， 直 到 网 络 和 输出 值 与 目标 值 匹配 。 为 了 获得 足够 可 靠 的 结果 ， 需 要 许多 输入 / 目 
标 对 来 形成 网 络 。 下 图 是 训练 阶段 的 简单 流程 图 。 


日 标 值 


输入 输出 值 . 


神经 网 络 


a HE] 二 六 | 
周 整 权重 

这 些 权重 的 调整 方式 由 所 采用 的 特定 算法 来 定义 。 强 调 了 算法 在 网 络 训练 中 的 重要 性 之 后 ， 需 要 天 注 准 备 提 供给 网 络 的 数 
据 。 


在 网 络 训练 过 程 中 ， 必 须 调 整 权重 和 偏差 以 优化 网 络 性 能 。 这 是 整个 过 程 中 最 重要 的 阶段 ， 因 为 网 络 性 能 越 好 ， 残 能 越 好 地 
对 新 的 数据 (数据 是 未 知 的 ) 进行 泛 化 。 在 这 个 阶段 ， 用 的 是 所 收集 到 的 部 分 数据 (随机 抽取 ， 通 剃 是 现 有 数据 的 70%) . 


在 训练 好 神经 网 络 之 后 ， 束 可 以 使 用 该 网 络 了 ， 在 这 个 阶段 ， 部 分 随机 采集 的 数据 (通常 是 可 用 数据 的 30%) 被 传送 到 网 络 
进行 测试 。 然 后 可 以 保存 神经 网 络 对 象 ， 并 任意 多 次 地 用 于 任何 新 的 数据 。 下 图 显示 了 如 何 分 割 原始 数据 集 。 


原 怒 效 据 集 


训练 
70% 


代码 中 的 数据 细 分 如 下 所 示 : 


index = sample(1:nrow(final data), round(0.70*nrow(final_ data) ) ) 
train data <- as.data.frame(final data[index,]) 
test data <- as.data.frame(final, data[-index,]) 


在 代码 的 第 一 行 中 ， 数 据 集 被 分 成 70:30， 目 的 是 使 用 70% 的 数据 来 训练 网 络 ， 剩 下 的 30% 用 于 测试 网 络 。 在 第 二 行 和 第 三 
行 中 ， 名 为 data 的 数据 框 的 数据 被 细 分 为 两 个 新 的 数据 框 ， 称 为 train_data 和 test_data。 现 在 需要 建立 提交 给 网 络 的 函数 : 


names (final data[1:9]) 
= as.formula(paste("Cancerbenign + Cancermalignant ~", paste(n, collapse 


W + 73 1] 
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ATH, fi&FBERZInamesQgr&2 I dgiedata scaledBJErB3szE MR. HRT, BISSAU. XX 
公式 代表 什么 呢 ? 


由 消 数 neuralnet0 拟 合 的 模型 以 紧凑 的 符号 形式 指定 。 运 算 符 ~ 是 这 些 模型 形成 的 基础 。 形 如 y~ 的 模型 表达 式 意 味 着 响应 
变量 y 由 预测 变量 (由 模型 中 的 符号 指定 ) 建 模 。 这 样 的 模型 由 运算 符 + 分 隅 的 一 系列 术语 组 成 。 术 语 本 身 由 变量 和 因子 名 称 组 
k, BZA C) 分 隔 。 这 些 林 语意 味 着 木 语 中 出 现 的 所 有 变量 和 因子 的 相互 作用 。 现 看 看 所 设置 的 公式 : 


> = 

Cancerbenign + Cancermalignant ~ Cl.thickness + Cell.size + Cell.shape + 
Marg.adhesion + Epith.c.size + Bare.nuclei + Bl.cromatin + 
Normal.nucleoli + Mitoses 


人 至此， 可 以 创建 和 训练 网 络 。 回 想 一 下 前 面 的 例子 中 给 出 的 关于 正确 选择 隐 含 层 中 神经 元 数量 的 建议 。 我 们 有 8 个 输入 变量 
(Cl.thickness、Cell.size、Cell.shape、Marg.adhesion、Epith.c.size、Bare.nuclel、Bl.cromatIn、Normal.nucleoli 和 和 


Mitoses) 和 一 个 输出 变量 (Cancer) ， 然 后 选择 在 隐 合 层 中 设置 五 个 神经 
net = neuralnet(f,data-train data,hidden=5, linear. output=FALSE) 


参数 hidden 接 受 一 个 种 有 每 个 隐 舍 层 的 仲 经 元 数量 的 向 量 ， 而 参数 linear.output 用 于 措 定 是 想 要 进行 回归 
(linear.output=TRUE) 还 是 分 类 (linear.output=FALSE) 。 


在 默认 情况 下 ， 在 neuralnet0) 中 使 用 的 算法 是 基于 未 加 权 回 溯 的 弹性 反 向 传播 ， 并 且 额 外 修改 一 个 学 习 率 ， 或 者 是 与 最 小 
绝对 梯度 相关 的 学 习 率 或 者 是 最 小 学 习 率 本 身 。 


为 了 绘制 包含 每 个 连接 上 的 权重 的 模型 图 表示 ， 可 以 使 用 已 在 前 面 详细 解释 的 函数 plot(: 


plot (net) 


绘制 的 神经 网 络 图 如 下 所 示 。 
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在 前 面 的 图 中 ， 黑 线 (从 输入 节点 开始 的 线 ) 展示 每 个 层 之 间 的 连接 以 及 每 个 连接 上 的 权重 ， 而 灰 线 (这些 线 从 以 1 来 区 分 
的 偏差 节点 开始 ) 展示 在 每 一 步 添加 的 偏 寿 。 偏 者 可 以 被 认为 是 线性 模型 的 截 距 。 


5.2.4 测试 神经 网 络 


终于 ,我 们 训练 好 了 网 络 并 准备 使 用 它 。 现 在 ， 可 以 用 它 来 进行 预测 。 请 记 住 ， 我 们 已 经 预 留 了 30% 的 可 用 数据 ， 然 后 用 它 
们 来 测试 网 络 。 是 时 候 使 用 它们 了 。 


predict net test «- compute(net,test data[,1:9]) 


HTG, BARAT BSÉXcompute. £&xE— T se IRR TREES, ZARA EN TED SEE IRE ER YT ESTER RE 
元 的 输出 。 现 打印 出 前 10 行 的 结果 : 


> head(predict net test$net.result,n-10) 
[,1] [,2] 


1 0.9999999935589190 0.000000003587253510720848 
2. 0.0000011083596034 0.999999376764558189911725 
4 0.9792070465712006 0.017164709664531079685856 
5 0.9999999746453074 0.000000021909385204003642 
9 0.9999993390597798 0.000000327298596658228207 
14 0.9999999999953126 0.000000000000889095157872 
17 0.9999999999989946 0.000000000000442776879837 
19 0.0000001409393993 0.999999920006766185309743 
21 0.0000024771345578 0.999998553964539960148272 
23 0.9999999999999967 0.000000000000001305142352 


正如 所 看 到 的 ， 这 些 结果 是 包含 几 位 小 数 的 实数 。 为 了 将 它们 与 数据 集中 包含 的 数据 进行 比较 ， 必 须 将 它们 四 省 五 入 到 最 接 
近 的 整数 。 为 此 ， 可 使 用 永 数 round( 将 第 一 个 参数 中 的 值 四 舍 五 入 到 指定 的 小 数位 数 (默认 为 零 ) 。 


predict result«-round(predict net test$net.result, digits = 0) 


现在 重建 开始 的 变量 。 我 们 不 再 需要 那 两 个 虚拟 变量 benign 和 malignant 了 ， 呈 然 它们 很 好 用 ， 但 现在 不 再 需要 它们 了 。 


net.prediction = c("benign", "malignant")[apply(predict result, 1, 
which.max)] 


建立 混淆 矩阵 来 检查 分 类 器 的 性 能 。 


predict.table = table(data cleaned$Class[-index], net.prediction) 


Ee FER RAR: 


> predict.table 
net .prediction 
benign malignant 
benign 132 S 
malignant 3 65 


显而易见 ， 和 矩阵 告诉 我 们 ， 我 们 只 犯 了 8 个 错误 。 有 关 混 清算 阵 的 更 多 信息 ， 可 以 使 用 添加 包 gmodels 中 包含 的 
CrossTable() 闵 数 获得 。 与 往常 一 样 ， 在 加 载 添加 包 之 前 ， 先 要 安 六 它 。 


library (gmodels) 
CrossTable(x = data cleaned$Class[-index], y = net.prediction, 
prop.chisq-FALSE) 


FIEIBJBER KE] Gea S (FRR ENC rossTable( jk {SAy E; SABE: 
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Total Observations in Table: 205 


net.prediction 
Jata_cleaned$C lass [-index] benign | malignant 


沙 人 在 主 对 角 线 上 的 单元 格 包含 分 类 器 正确 地 对 样本 进行 分 类 的 计数 。 在 元 上 角 的 单元 格 中 ， 标 记 为 TN， 是 真 阴 性 结果 。 这 
205 个 值 中 132 个 指示 肿块 是 benign 的 病例 被 算法 正确 地 识别 。 标 记 为 TP 的 右 下 角 的 单元 格 表示 真 阳性 结果 ， 意 味 痢 分 类 器 和 临 
床 确定 的 标签 都 认为 肿块 是 malignant 的 。 总 共 205 个 预测 中 有 65 个 是 真 阳性 的 。 


沙 在 另 一 个 对 角 线 上 的 单元 格 包 含 分 类 器 对 样本 进行 错误 分 类 的 计数 。 左 下 方 FN 单 元 格 中 的 3 个 例子 是 假 阴性 结果 ， 在 这 个 
案例 ， 代 表 预 测 值 是 benign 但 肿块 实际 上 是 malignant 的 情况 。 这 个 方向 上 的 错误 的 代价 非常 高 ， 因 为 它们 可 能 会 让 病人 相信 
自己 没有 得 癌症 ,但 实际 上 ， 冶 细胞 可 能 会 继续 营 延 。 标 有 FP 的 单元 格 将 包含 假 阳 性 结果 ， 代 表 模 型 将 实际 为 benign 的 样本 分 
类 为 malignant 的 情况 。 尽 管 这 样 的 错误 没有 假 阴 性 结果 那么 危险 ， 但 也 应 该 避免 ， 因 为 它们 可 能 会 市 来 额外 的 医疗 经 济 负担 ， 
或 给 患者 市 来 额外 的 压力 。 


5.3. fü£ pedal 


练 中 的 早期 停止 


epoch 是 度量 前 向 传播 训练 以 及 权重 和 偏 甜 的 反 向 传播 更 新 的 每 次 往返 。 一 旦 达到 收敛 (最 小 误差 项 ) 或 者 经 过 预 设 的 迭代 
次 数 ， 训 | 练 的 往返 就 必 须 停止 。 


早期 停止 是 用 于 处 理 模 型 过 拟 合 的 技术 ( 接 下 来 会 介绍 更 多 过 拟 合 的 内 容 ) 。 训 练 集 分 为 两 部 分 : 其 中 一 部 分 用 于 训练 ， 另 
一 部 分 用 于 验证 。 将 iris 数 据 集 分 为 两 部 分 : 75% 和 25%。 


利用 训练 数据 ， 计 算 梯 度 并 更 新 网 络 权重 和 偏 寿 。 第 二 组 数据 ， 即 测试 或 验证 数据 ， 用 于 验证 模型 过 拟 合 。 如 果 验 证 过 程 中 
的 误差 增加 到 了 指定 的 数 (nnetabstol/reltol) ， 则 停止 训练 ， 模 型 将 使 用 该 点 的 权重 和 偏 状 。 这 种 万 法 称 为 早期 停止 (early 


stopping) 。 


早期 停止 的 神经 网 络 集成 泛 化 误差 ， 这 与 由 传统 算法 训练 的 最 佳 结构 的 单个 神经 网 络 相 当 。 单 个 的 神经 网 络 需要 一 个 复杂 和 和 
美的 调整 ， 以 达到 这 种 泛 化 ， 而 不 是 早期 停止 。 


5.4 ”避免 模型 中 的 过 拟 合 


训练 数据 的 拟 合 使 模型 确定 权重 和 偏 牵 以 及 激活 函数 值 。 当 算法 在 某 些 训 | 练 数 据 集中 表现 得 太 好 时 ， 称 为 与 该 特定 数据 集 过 
于 一 人 臻 。 当 测试 数据 与 训练 数据 非常 不 同时 ， 这 会 导致 输出 值 的 高 度 不 同 。 这 种 过 高 的 估计 方 磊 被 称 为 过 拟 合 (overfitting) 。 
预测 结果 受 所 提供 的 训练 数据 的 影响 。 


处 理 神 经 网 络 中 的 过 拟 合 问题 的 方法 很 多 。 首 先是 正则 化 ， 类 似 于 回归 。 有 两 种 正则 化 方法 : 
- L1 或 LASSO 正 则 化 。 
“12 或 岭 (ridge) 正则 化 。 
另外 还 有 
` 最 大 范 数 约束 。 
. 神经 网 络 中 的 dropout。 


正则 化 引入 了 一 个 成 本 项 来 影响 激活 遂 数 。 它 试图 在 目标 遂 数 中 引入 更 多 特征 来 改变 大 部 分 系数 ， 试 图 将 许多 变量 的 系数 推 
到 零 ， 并 降低 成 本 项 。 
- LASSO 或 L1 正 则 化 或 11 惩 罚 : 这 有 一 个 惩罚 项 ， 它 使 用 绝对 权重 的 总 和 ， 以 便 优 化 权重 来 减少 过 拟 合 。 最 小 绝对 收缩 和 


选择 算 子 (Least Absolute Shrinkage and Selection Operator, LASSO) 引入 了 惩罚 权重 ， 将 网 络 权 重 缩小 到 零 

- [2 惩罚 或 岭 回归 (ridge regression) : 这 与 L1 类 似 ， 但 惩罚 基于 权重 值 的 平方 和 而 不 是 绝对 权重 的 总 和 。 权 重 越 大 ， 受 到 
的 惩罚 越 多 。 

对 于 这 两 种 情况 ， 只 考虑 了 权重 优化 ， 偶 差 (或 偏 移 量 或 截 距 ) 不 包含 在 练习 中 。 


最 大 范 数 约束 : 这 是 夯 一 种 正则 化 技术 。 通 过 这 种 技术 ， 可 对 每 个 神经 元 的 输入 权重 向 量 的 强度 执行 绝对 上 限 ， 并 且 由 于 
到 约束 ， 投 影 梯度 下 降 法 不 能 修改 权重 。 在 这 里 ， 参 数 向 量 不 能 失控 OFIERA) ， 因 为 权重 的 更 新 总 是 有 界 的 。 


- dropout: 这 是 另 一 种 过 拟 合 的 预防 技术 。 训 练 时 ，dtopout 是 通过 保持 一 个 神经 元 以 某 种 概率 P (一 个 超 参 数 ) 活跃 或 者 否 
则 将 其 设置 为 震 来 实现 的 。 这 意味 着 一 些 神 经 元 在 训练 期 间 可 能 不 存在 ， 因 此 成 为 dtopout。 网 络 不 会 受 此 影响 ， 甚 至 在 缺乏 某 
些 信息 的 情况 下 变 得 更 加 准确 。 这 可 以 防止 网 络 过 度 依 赖 于 神经 元 的 任何 一 个 〈 或 任何 小 组 合 ) 。 下 图 解释 了 dropout 的 过 程 ， 
深 色 神经 元 被 淘汰 ， 和 神经 网 络 模型 在 没有 这 些 神 经 元 的 情况 下 存活 下 来 ， 并 且 提 供 更 少 的 过 拟 合 和 更 高 的 准确 性 。 


5.5 ”种 经 网 络 的 泛 化 


泛 化 旨 在 拟 合 训练 数据 ， 它 是 我 们 在 神经 网 络 模型 上 进行 的 训练 的 延伸 。 它 试图 最 小 化 模型 在 训练 数据 上 的 平 万 误差 总 和 
(例如 使 用 普通 最 小 二 乘法 ) 并 降低 模型 的 复杂 性 。 


这 里 刘 出 了 泛 化 的 万 法 : 
- 训练 的 早期 停止 。 
- 用 不 同 的 训练 数据 重新 训练 神经 网 络 使 用 随机 抽样 、 分 层 抽 样 或 任何 良好 的 目标 数据 组 合 。 


` 训练 多 个 神经 网 络 并 取 输 出 的 平均 值 。 


5.6 ” 伸 经 网 络 模 型 中 数据 的 缩放 


数据 缩放 或 标准 化 是 以 标准 格式 制作 模型 数据 的 过 程 ， 以 便 训 | 练 得 到 改进 ， 从 而 变 得 准确 和 快速 。 在 神经 网 络 中 缩放 数据 的 
方法 类 似 于 任何 机 器 学 习 问 题 中 的 数据 标准 化 。 


这 里 列 出 了 一 些 简单 的 数据 标准 化 方法 。 
` 芝 分 数 标准 化 。 首 先 计算 给 定数 据 的 算术 平均 值 和 标准 差 ， 然 后 计算 标准 化 分 数 或 分 数 : 


Z=(X-u)o 


这 里 ，X 是 数据 元 素 的 值 ，H 是 平均 值 ，o 是 标准 差 。2 分 数 或 标准 化 分 数 表示 数据 元 泰 与 平均 值 有 多 少 标准 差 的 距离 。 由 于 平均 
值 和 标准 寿 对 异常 值 很 敏感 ， 因 此 这 种 标准 化 对 异常 值 很 敏感 。 


最 小 一 最 大 标准 化 。 为 每 个 数据 元 素 计 算 以 下 内 容 : 


x, —min(x) 


b. 
i 


( | ( | 
这 里 ，x 有 是 数据 元 素 ，minCO 是 所 有 数据 值 的 最 小 值 ，max(x) 是 所 有 数据 值 的 最 大 值 。 这 种 方法 将 所 有 的 分 数 转换 到 弟 见 的 


[0，1] 范 围 内 。 但 是 ， 它 对 异 弟 值 特别 敏感 。 


. 中 位 数 和 MAD: 中 位 数 和 中 位 数 绝对 偏差 (Median Absolute Deviation, MAD) 标准 化 使 用 以 下 公式 计算 标准 化 数据 值 : 


x, - median(.X 


A y V? 


这 里 ，x 表 示 每 个 数据 值 。 这 种 方法 对 于 异常 值 和 分 布 极端 尾部 的 点 不 敏感 ， 因 此 它 是 稳定 的 。 然 而 ， 这 种 技术 不 保留 输入 分 
和 布 ， 也 不 会 将 分 数 转换 到 单 见 的 数值 沁 围 。 


5.7 ”集成 伸 经 网 络 来 预测 


另 一 种 正则 化 方法 涉及 组 合 神经 网 络 模型 和 平均 模型 的 结果 。 由 此 产生 的 模型 是 最 准确 的 。 


独 经 网 络 集成 是 使 用 一 组 神经 网 络 模型 ， 通 过 对 各 个 模型 的 结果 进行 平均 来 做 出 决定 。 集 成 技术 是 改善 泛 化 的 一 种 简单 廊 
法 ， 尤 其 是 受 噪声 数据 或 小 数据 集 影响 时 。 训 练 多 个 神经 网 络 并 平均 它们 的 输出 。 


例如 ， 对 于 相同 的 学 习 问 题 ， 我 们 采取 20 个 神经 网 络 ， 在 训练 过 程 中 调整 它们 的 各 个 参数 ， 然 后 将 它们 的 均 方 误差 与 其 平 
均值 的 均 广 误差 进行 比较 。 


以 下 是 操作 步骤 : 


1) 将 数据 集 加 载 并 分 成 训练 集 和 测试 集 。 对 于 不 同 的 神经 网 络 模型 ， 百 分 比 可 以 变化 。 
2) 使 用 不 同 的 训练 集 并 通过 调整 阔 数 nnet(0 中 的 参数 创建 多 个 模型 。 

3) 所 有 模型 都 经 过 训练 ， 每 个 模型 中 的 误 帮 都 列 在 表格 中 。 

4) 为 测试 数据 中 的 每 一 行 找到 平均 误 兰 ， 并 为 每 个 模型 计算 均 万 误差 。 

5) 将 均 方 误差 与 平均 值 的 均 万 误差 进行 比较 。 

6) 从 比较 中 选择 有 最 好 结果 的 模型 ， 并 进一步 用 于 预测 。 


这 种 万 法 允许 我 们 尝试 数据 和 改变 函数 参数 ， 以 达到 模型 的 最 佳 设 置 。 可 以 在 集成 中 选择 任意 数量 的 模型 ， 并 使 用 R 对 模型 
进行 并 行 处 理 。 


过 拟 合 大 大 降低 ， 进 而 获得 模型 的 最 佳 参数 。 


5.8 小结 


本 章 介绍 了 使 用 R 进 行 简单 神经 网 络 的 训练 和 可 视 化 。 在 这 里 ， 我 们 可 以 改变 神经 元 的 数量 、 隐 合 层 的 数量 、 激 活 函 数 等 ， 
以 确定 模型 的 训练 。 


在 处 理 回 归 间 题 时 ， 最 后 一 层 包含 一 个 神经 元 ， 它 将 提供 连续 值 。 对 于 分 类 问题 ， 有 nn 个 终端 神经 元 ， 每 个 神经 元 代表 输出 
的 类 别 及 其 概率 。 乳 腺 癌 的 案例 由 两 个 输出 神经 元 来 表示 神经 网 络 输 出 的 两 类 值 。 


我 们 已 经 学 会 了 如 何 使 用 NN 模型 来 训练 、 测 试 和 评估 数据 集 ， 也 学 习 了 如 何在 R 环 境 中 对 NN 模型 进行 可 视 化 。 本 章 还 介绍 
了 诸如 早期 停止 、 避 免 过 拟 合 、NN 的 泛 化 以 及 NN 参数 的 缩放 等 概念 。 


BOR fas RAMs 


到 目前 为 止 ， 我 们 一 直 在 研究 前 馈 网 络 ， 即 数据 在 一 个 方向 上 移动 ， 并 且 每 层 神经 元 没有 内 部 连接 。 在 某 些 问题 有 交互 的 基 
本 假设 的 情况 下 ， 前 馈 网 络 固 有 的 单 向 结构 的 效果 非常 有 限 。 但 是 ， 我 们 可 以 从 它 开始 创建 一 个 网 络 ， 其 中 计算 一 个 神经 元 的 结 


会 影响 另 一 个 神经 元 的 计算 过 程 。 很 明显 ， 管 理 这 些 网 络 动态 的 算法 必须 符合 新 的 收敛 标准 。 


本 章 将 介绍 具有 循环 数据 流 的 循环 神经 网 络 (Recurrent Neural Network, RNN) ， 以 及 卷 积 伸 经 网 络 (Convolutional 
Neural Network, CNN) 。CNN 是 主要 用 于 图 像 识 别 的 标准 化 神经 网 络 。 对 于 这 两 种 类 型 的 网 络 ， 本 章 会 在 R 环 境 中 实现 一 些 
实例 。 


. A Jm &rnn 
- 长 短期 记忆 (Long Short-Term Memory, LSTM) 模型 
: CNN 


. 常见 的 CNN 架 构 LeNet 


在 本 章 结束 前 ， 我 们 将 明白 如 何 训 | 练 、 测 试 和 评估 RNN。 我 们 将 学 习 如 何在 R 环 境 中 可 视 化 RNN 模 型 。 同 时 ， 我 们 将 学 会 
训练 LSTM 模 型 。 本 章 将 涵盖 CNN 和 通用 CNN 架 构 LeNet 的 概念 。 


6.1 循环 伸 经 网 络 


在 人 工 神经 网 络 的 集合 中 ， 基 于 隐 含 层 的 数量 和 数据 沉 有 几 种 变 体 。 其 中 一 种 变 体 是 RNN， 神 经 元 乙 间 的 连接 可 以 形成 一 
个 循环 。 与 前 馈 网 络 不 同 ，RNN 可 以 使 用 内 部 仓储 器 进行 处 理 。RNN 是 一 类 人 工 神经 网 络 ， 其 特征 在 于 隐 合 层 之 间 的 连接 按时 
间 传 播 以 便 学 习 序 列 。RNN 用 例 涉及 以 下 领域 : 


- 股市 预测 

-图像 字幕 

“ 天 气 预 报 

` 基于 时 间 序 列 的 预测 
. 语言 翻译 

- 语音 识别 
BRA 
音频 或 视频 处 理 

- 机 器 人 动作 排序 


到 目前 为 止 ， 本 书 所 研究 的 网 络 (前 馈 网 络 ) 是 基于 输入 数据 的 ， 这 些 数据 通过 网 络 转换 为 输出 。 如 果 它 是 一 个 有 监督 学 习 
算法 ， 则 输出 这 有 一 个 可 以 识别 输入 的 标签 。 基 本 上 ， 这 些 算法 通过 识别 模式 将 原始 数据 连接 到 特定 类 别 。 


男 一 方面 ,循环 神经 网 络 不 仅 将 当前 输入 到 网 络 的 数据 作为 它们 的 输入 ， 而 且 还 将 它们 长 期 以 来 的 经 历 作为 输入 。 


一 个 循环 神经 网 络 在 特定 时 刻 做 出 的 决策 会 影响 其 下 一 刻 做 出 的 决策 。 因 此 ， 循 环 神 经 网 络 有 两 个 输入 源 一 一 当前 和 过 去 


结合 这 两 部 分 ， 以 确定 它们 如 何 响应 新 数据 。 


的 


循环 神经 网 络 与 前 馈 网 络 的 区 别 在 于 反馈 回路 与 其 过 去 的 决策 相关 联 ， 因 此 将 过 去 的 输出 暂时 作为 输入 接收 。 这 个 特征 可 以 
通过 循环 神经 网 络 的 记忆 说 明 。 为 神经 网 络 增 加 记忆 的 目的 是 : 序列 本 身 有 信息 ， 而 循环 神经 网 络 可 以 使 用 它 来 执行 前 馈 网 络 不 
完成 的 任务 。 


Ab 
Bb 


RNN 是 一 类 人 神经 元 之 间 存 在 连接 并 形成 有 同 循 环 的 神经 网 络 ， 典 型 的 RNN 如 下 图 所 示 。 


输出 层 


这 里 ， 一 个 实例 的 输出 作为 同一 神经 元 的 下 一 个 实例 的 输入 。 数 据 保存 在 内 存 中 并 在 不 同时 间 段 流动 ， 使 得 RNN 功 能 强大 
且 运 行 成 功 。 


人 在 RNN 下 ， 数 据 向 后 流动 的 方式 有 更 多 变 体 : 
- 完全 递归 (fully recurrent) 
- 递归 (recursive) 
: Hopfield 
- Elman#eJordan 网络 
AY ZB 9; X J& A8 WL (neural history compressor) 
: LSTM 
- 门 控 循环 单元 (Gated Recurrent Unit, GRU) 
- 双向 网 络 (bidirectional) 
: 循环 MLP (recurrent MLP) 


RNN 旨 在 将 模式 识别 为 一 系列 数据 ， 并 有 助 于 预测 。 它 们 可 以 处 理 文本 、 图 像 、 语 音 和 时 间 序 列 数据 。RNN 是 强大 的 人 工 


俐 经 网 络 之 一 ， 可 代表 生物 大 脑 ， 包 括 对 处 理 能 力 具 有 记忆 性 。RNN 从 当前 输入 (如 前 馈 网 络 ) 和 之 前 计算 的 输出 中 获取 输 


Fs SLAY B toe Pd 24 


y(t) 循环 网 络 


V(t) BIRTH WNA 


为 了 更 好 地 理解 这 一 点 ， 可 将 RNN 看 作 神 经 网 络 的 一 个 网 络 ， 循 环 特性 按 以 下 方式 展开 (unfolded) 。 考 虑 不 同时 间 段 (- 


t-1，t，t+1 等 ) 下 神经 元 h 的 状态 ， 直 到 收敛 或 达到 epoch 的 总 数 。 


如 下 图 所 示 。 


aa m ml 


Vanilla 是 第 一 个 引进 的 循环 人 工 神 经 网 络 模型 ， 


其 他 变 体 (如 GRU 或 LSTM 网 络 ) 由 于 实现 简单 ， 因 此 应 用 更 为 广泛 ， 并 且 在 涉及 庄 如 语言 建 模 、 语 音 识 别 、 图 像 字幕 和 目 


动 翻译 等 序列 的 广泛 应 用 中 表现 出 早 越 的 性 能 。 


通过 以 下 添加 包 可 以 在 R 中 实现 RNN: 


: RNN 


: MxNetR 
: R? &jTensorFlow 


RNN 主 要 用 于 序列 建 模 。 输 入 和 输出 被 视 为 向 量 (KRE) 。 为 了 进一步 理解 RNN， 建 议 你 阅读 Andrej Karpathy 的 字 


符 序列 示例 (character sequencing example) 。 


RNN 的 特征 使 它 像 一 个 市 有 记忆 的 ANN。ANN 有 记忆 ， 使 它 更 像 人 脑 。 有 了 记忆 ， 残 可 以 让 机 器 从 头 开 始 思考 ， 并 从 它们 
的 “记忆 ”中 学 习 。RNN 基 本 上 是 具有 循环 的 ANN ， 人 允许 信息 在 网 络 中 持续 存在 。 循 环 允 许 信息 从 状态 (t) 传递 到 下 一 个 状态 
(t+1) 。 


RNN 可 以 被 认为 是 同一 ANN 的 多 个 副本 ， 其 中 一 个 网 络 的 输出 作为 输入 传递 给 下 一 个 网 络 。 当 我 们 拥有 信息 时 ， 随 着 模式 
的 变化 ，RNN 能 够 预测 t+ 1 时 刻 网 络 的 输出 值 。 这 对 分 析 基 于 时 间 序 列 的 问题 特别 有 用 |。 


没有 有 具体 的 标签 要 求 : 作为 输入 的 一 部 分 的 值 形成 时 间 序 列 变量 ， 并 且 RNN 可 以 学 习 该 模式 并 进行 预测 。 


RNN 的 内 部 状态 在 学 习 过 程 的 每 个 时 间 阶 段 都 会 更 新 。RNN 中 的 前 馈 机 制 与 ANN 中 的 相似 。 然 而 ， 反 向 传播 是 一 种 基于 时 
间 的 反 向 传播 (Backpropagation Through Time，BPTT) 的 误差 项 修正 。 


基于 时 间 的 反 向 传播 莹 循 以 下 伪 代 和 码 : 

1) 展开 RNN 以 包 合 n 个 前 馈 网 络 。 

2) 将 权重 w 初 始 化 为 随机 值 。 

3) 执行 以 下 操作 ， 直 至 满足 停止 条 件 或 完成 所 需 数量 的 epoch。 
4) 将 每 个 网 络 的 输入 值 设置 为 xi。 

5) 在 整个 展开 的 网 络 上 向 前 传播 输入 。 

6) 在 展开 的 网 络 上 上 反 辐 传播 误差 。 

7) 更 新 网 络 中 的 所 有 权重 。 


8) 平均 权重 以 获取 折 寺 网 络 中 的 最 终 权 重 。 


6.2 R 中 的 添加 包 rnn 


要 在 R 环 境 中 执行 RNN， 可 以 使 用 CRAN 提 供 的 添加 包 rnn。 这 个 添加 包 被 广泛 用 于 实现 RNN。 下 表 显 示 了 从 官 万 文档 中 提 
取 的 添加 包 rnn 的 简要 说 明 。 


mn: 循环 神经 网 络 


摘 述 : 

在 R 中 执行 RNN 
详细 信息 : 
添加 包 : rnn 
类 型 : 添加 包 
版 本 : 0.8.0 
日 期 : 2016-09-11 
许可 证 : GPL-3 


Bastiaan Quast 
Dimitri Fichou 


predict rnn 


run.mn demo 


添加 包 rnn 中 的 主要 冰 数 如 下 表 所 示 。 


预测 一 个 RNN 模型 的 输出 


predict rnn(model, x, hidden = FALSE, real output = 


启动 mn demo Jif HB ei Re: 
run.mn demo(port = NULL) 


i cae) 


trainr 


predictr IAPR BUA F Rc] — 


和 人 往 单一 样 ， 想 要 使 用 一 个 添加 包 ， 必 /8 


Qez: 记 住 ， 想 要 安装 初始 的 R 中 不 存在 的 添加 包 
添加 包 的 名 字 作 为 向 量 参 数 ， 从 仓库 中 下 载 添 加 包 并 进行 


安装 并 加 载 添加 包 : 


install.packages ("rnn") 
LibDrary( 了 DT 


加 载 添加 包 (library("rnn")) 时 ， 可 能 收 到 以 下 错误 : 


> Library (“rnin”) 
Error: 
env) : 


package or namespace load failed for ‘rnn’ in get(Info[i, 


PBA T VIZ RNN, RNN 模型 使 用 函数 predictr 预测 。 


个 RNN 模型 的 输出 
predictr(model, x, hidden = FALSE, rp 一 工 …) 


ICAI FFT MEX. 


, XA JF x) Hinstall. package. MHBRA A 6,0] ERA. 


安装 。 这 个 函数 只 需要 使 用 一 次 ， 不 必 每 次 都 运行 这 行 代码 


1], 


cannot open file 'C:/Users/Giuseppe/Documents/R/win- 


library/3.4/digest/R/digest.rdb': 


别 担心 ， 因 为 这 没什么 严重 的 ! 


少 


install.packages ("digest") 


现在 可 以 开始 演示 了 : 


No such file or directory 


envir = 


这 只 是 在 说 ， 为 了 运行 添加 包 rnn， 你 还 需要 安 闭 添加 包 digest。 对 此 ， 只 需 添加 以 下 命 


run.rnn_demo () 


在 安装 了 添加 包 rnn 后 运行 run.rnn_ demo(0， 使 可 以 通 


并 且 可 以 直观 地 看 到 参数 如 何 
y [ mn demo x 


| © 127.0.0.1:5876 


值 的 RNN 演 示 ， 


影响 RNN， 如 下 图 所 示 。 


过 127.0.0.1:5876 访 问 一 个 网 页 


， 这 允许 我 们 能 够 运 


time dimension 


training sample dimension 


7000 
testing sample dimension 


7000 


network 


number of hidden layers 


Number of unit in the layer number 1 "———— e —— 


1 


Number of unit in the layer number 2 ak & ere 


1 


learningrate 
0.1 


batchsize 
numepochs 


momentum 
0.5 
# use bias 


learningrate decay 


此 时 ， 便 可 设置 网 络 的 参数 ， 


- time dimension 


: training sample dimension 


- testing sample dimension 


: number of hidden layers 


: Number of unit in the layer number 1 


: Number of unit in the layer number 2 


: learningrate 


- batchsize 


: numepochs 


: momentum 


: leatningrate decay 


完成 这 些 操 作 后 ， 只 需 点 击 按钮 train， 便 可 构建 和 训 


下 图 显示 了 仿真 结果 。 


并 通过 它 的 标签 选 


先 择 要 插入 文本 框 中 的 适 


练 命令 
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Balaji 
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Balaj = 
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training set 


training sample dimension 


7000 


error 
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testing sample dimension 


25 


7000 


network = 


number of hidden layers 1 2 3 4 


2 epoch 
test sample index to look at 


Number of unit in the layer number 1 
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pevtrainrélpredictreaviBmn PRs SAAN, ERSEtrainr( f FH—28 2 3808 Y KI 


tralnri(r, X, 
learningrate, 
learningrate decay - 1, 
momentum = O0, 
hidden dim = c(10), 
network type = "rnn", 
numepochs - 1, 


sigmoid = c("logistic", "Gompertz", 


use bias - F, 

batch size - 1, 

seq to seq unsync - F, 

update rule - "sgd", 

epoch function = c(epoch print, 
loss function - loss L1, ...) 


predictr (model, 

X, 

hidden = FALSE, 

real output - T, 

arguments to pass to sigmoid function) 


函数 trainr0 采 用 以 下 参数 。 输 出 是 一 个 可 用 于 预测 的 模型 


armor 
05 iD 15 20 25 30 35 40 


test set 


input aed cufpul byes 


"Pann } ; 


AES), jzqen"[5FBBSXpredictr() 


epoch annealing), 


输出 值 数 组 : 
dim 1: 样本 (必须 等 于 XX 的 dim 1) 


dim 2; 时 间 (必须 等 于 X 的 dim 2 ) 
dm 3: 变量 (可 以 是 一 个 或 多 个 ; 如 果 是 矩阵 ， 则 会 被 强制 转换 为 数组 ) 
输入 值 数组 : 
x dim 1: 样本 
dim 2: 时 间 
dm 3: 变量 (可 以 是 一 个 或 多 个 ; 如 果 是 矩阵 ， 则 会 被 强制 转换 为 数组 ) 
learningrate 应 用 于 权重 迭代 的 学 习 率 
learningrate decay ict PRZX epoch annealing 应 用 于 每 个 epoch 的 学 习 率 的 系数 
momentum 最 新 权重 迭代 的 系数 以 保持 更 快 的 学 习 速 度 
hidden dim 隐 含 层 的 维度 
network type 网 络 的 类 型 ， 可 以 是 RNN、GRU 或 LSTM 
numepochs 迭代 次 数 ， 即 整个 数据 集 呈 现 给 网 络 的 次 数 
sigmoid 传递 给 函数 sigmoid 的 方法 
batch size 在 每 次 权重 迭代 中 使 用 的 样本 数量 ， 目 前文 持 一 个 


应 用 于 每 个 epoch 循环 的 因数 回 量 。 使 用 它 与 列表 模型 中 的 对 象 交 互 或 在 每 个 
epoch 中 打印 和 绘图 。 它 将 返回 模型 


loss function 应 用 于 每 个 样本 循环 、 词 汇 验证 
要 传递 给 方法 的 参数 ， 在 用 户 定 义 的 函数 中 使 用 


epoch function 


现在 来 看 一 个 简单 的 例子 ， 它 包含 在 添加 包 rnn 的 CRAN 官 方 文档 中 ， 用 于 演示 消 数 trainr0 和 predictr0)， 并 查看 预测 的 准确 
性 。 


X1 和 X2 的 随机 数 在 0 ~ 127 范 围 内 。Y 被 急 始 化 为 X1+X2。 将 X1、X2 和 Y 转 换 为 二 进 制 变 量 后 ， 使 用 trainr0 基 于 X (X1 和 X2 
的 数组 ) 训练 Y。 


使 用 该 模型 ， 基 于 另 一 个 样本 A1+A2 预 测 B。 误 差 的 差异 被 绘制 为 直方 图 。 


librarvi"rnn" 


#Create a set of random numbers in X1 and X2 
X1-sample(0:127, 7000, replace-TRUE) 
X2-sample(0:127, 7000, replace=TRUE) 


#Create training response numbers 
YzX1 二 X2 


# Convert to binary 
X1-int2bin(X1) 
X2=int2bin (X2) 
Y=int2bin (Y) 


# Create 3d array: dim 1: samples; dim 2: time; dim 3: variables. 
X-array( c(X1,X2), dim-c(dim(X1),2) ) 


# Train the model 

model <- trainr(Y-Y[,dim(Y)[2]:1], 
X=X[,dim(X) [2]:1,], 
learningrate = 0.1, 
hidden dim = 10, 
batch size - 100, 
numepochs - 100) 


plot (colMeans (model$error),type-'l',xlab-'epoch',ylab-'errors') 
# Create test inputs 

Al-int2bin(sample(0:127, 7000, replace=TRUE) ) 
A2-int2bin(sample(0:127, 7000, replace=TRUE) ) 


# Create 3d array: dim 1: samples; dim 2: time; dim 3: variables 
A-array( c(A1,A2), dim-c(dim(A1),2) ) 


# Now, let us run prediction for new A 
B-predictr (model, 


A[,dim(A)[2]:1,] ) 
B=B[, dim(B) [2] :1] 


# Convert back to integers 


Al=bin2int (A1) 
A2=bin2int (A2) 
B-bin2int (B) 


# Plot the differences as histogram 
hist( B-(A1+A2) ) 


像 往 单一 样 ， 逐 行 分 析 代 码 ， 详 细 解 释 用 于 获取 结果 的 所 有 阔 数 : 


library ("rnn") 


切 始 代码 的 第 一 行 用 于 加 载 分 析 所 需 的 添加 包 。 现 来 看 看 下 面 的 命令 : 


Xl-sample(0:127, 7000, replace=TRUE) 
X2=sample(0:127, 7000, replace=TRUE) 


这 些 命令 创建 了 训练 响应 值 ， 这 两 个 向 量 是 即将 构建 的 网 络 的 输入 。 使 用 函数 sample(0) 从 x 的 元 素 中 进行 给 定 样本 大 小 的 有 
放 回 或 者 不 放 回 的 抽样 。 这 两 个 向 量 包 售 1 ~ 127 的 7000 个 随机 整数 值 。 


Y = Xl + X2 


该 命令 创建 训练 响应 值 ， 它 是 我 们 的 目标 变量 ， 或 者 是 想 要 在 网 络 帮助 下 预测 的 值 ， 


X1-2int2bin (X1) 
X2-int2bin (X2) 
Y=int2bin (Y) 


一 一 -一 一 /一 


这 三 行 代 码 将 整数 转换 为 二 进 制 序列 。 我 们 需要 将 数字 转换 为 二 进 制 文件 ， 然 后 再 逐 位 添加 。 最 后 ， 会 得 到 每 个 值 的 8 值 序 
列 ， 这 些 值 为 0 或 1。 为 了 理解 转换 过 程 ， 下 面 分 析 其 中 一 个 变量 : 


> head(X1,n-10) 
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现 继续 分 析 代 三 : 
X-array( c(X1,X2), dim=c(dim(X1),2) ) 


IE CASPAR REV train ORY BET = 2848, IX T SESSEL BLA: 
dim 1: 样本 (必须 等 于 输入 的 dim1) o 
dim 2: 时 间 (必须 等 于 输入 的 dim 2) o 


“ dim 3: X X (可 以 是 一 个 或 多 个 ; 如 果 是 和 矩阵， 则 会 被 强制 转换 为 数组 ) 。 


model «- trainr (Y=Y[,dim(Y) [2]:1], 
X=X[,dim(X) [2]:1,], 
learningrate = 0.1, 
hidden_dim = 10, 
batch_size = 100, 
numepochs = 100) 


国 数 trainr(0 在 R 中 训练 RNN。 基 于 X 和 Y 进 行 训练 需要 几 分 钟 。 以 下 代码 展示 了 在 R 提 示 中 显示 的 最 后 10 个 训练 epoch 的 结 


Trained epoch: 90 - Learning rate: 0.1 
Epoch error: 3.42915263914405 


Trained epoch: 91 - Learning rate: 0.1 
Epoch error: 3.44100549476955 
Trained epoch: 92 - Learning rate: 0.1 
Epoch error: 3.43627697030863 
Trained epoch: 93 - Learning rate: 0.1 
Epoch error: 3.43541472188254 
Trained epoch: 94 - Learning rate: 0.1 
Epoch error: 3.43753094787383 
Trained epoch: 95 - Learning rate: 0.1 
Epoch error: 3.43622412149714 
Trained epoch: 96 - Learning rate: 0.1 
Epoch error: 3.43604894997742 
Trained epoch: 97 - Learning rate: 0.1 
Epoch error: 3.4407798878595 
Trained epoch: 98 - Learning rate: 0.1 
Epoch error: 3.4472752590403 
Trained epoch: 99 - Learning rate: 0.1 


Epoch error: 3.43720125450988 
Trained epoch: 100 - Learning rate: 0.1 
Epoch error: 3.43542353819336 


可 以 绘制 算法 产生 的 误差 随 epoch 的 变化 来 查看 算法 的 演变 : 


plot (colMeans (modelS$error) ,type='1',xlab='epoch', ylab='errors') 


下 图 显示 了 epoch 与 误差 之 间 的 关系 。 
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现在 该 模型 已 准备 融 绪 ， 可 以 使 用 它 来 测试 网 络 。 但 首先 需要 创建 一 些 测试 数 据 : 
Al-int2bin(sample(0:127, 7000, replace=TRUE) ) 


A2=int2bin(sample(0:127, 7000, replace=TRUE) ) 
A-array( Cc(A1,A2), dim=c(dim(Al1),2) ) 


开始 对 新 数据 进行 预测 : 


B=predictr (model, A[,dim(A) [2]:1,] ) 
B=B[,dim(B) [2] :1] 


将 数据 转换 回 整数 : 
Al-bin2int (A1) 


A2-bin2int (A2) 
B-bin2int (B) 


最 后 ， 将 误差 差异 绘制 为 直方 图 ; 


hist( B-(A1+A2) ) 


误 关 直方 图 如 下 所 示 。 
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由 图 可 以 看 出 ， 最 频繁 的 区 上 间 的 值 接近 于 零 ， 表 明 在 大 多 数 情 况 下 ， 预 测 值 与 当前 值 一 致 。 所 有 其 他 区 间 都 与 误差 有 天 。 
此 可 以 说 网 络 可 以 很 好 地 仿真 系统 。 


63 ”LSTM 模 型 


我 们 已 经 看 到 ，RNN 具 有 将 持续 的 先前 信息 用 于 当前 神经 网 络 处 理 的 记忆 。 先 前 的 信息 可 用 于 当前 任务 ， 但 是 记忆 是 短期 
的 ， 并 且 我 们 没有 可 用 于 神经 节点 的 所 有 先前 信息 的 列表 。 


当 将 长 期 ld 引入 RNN 时 ，RNN 便 能 够 记 住 大 量 先前 信息 并 将 其 用 于 当前 的 处 理 中 。 这 个 概念 被 称 为 RNN 的 LSTM 模 型 ， 
已 在 视频 、 音 频 、 文 本 预测 和 各 种 其 他 应 用 中 具有 许多 用 例 。 


HSTreiter&Sschmidhuber 于 1997 年 推出 了 LSTM 。 


LSTM 网 络 使 用 基于 时 间 的 反 向 传播 进行 训练 并 减少 梯度 消失 问题 。LSTM 在 时 间 序 列 预 测 中 具有 强大 的 应 用 ， 可 以 创建 大 
型 的 循环 网 络 来 解决 机 器 学 习 中 的 复杂 的 序列 问题 。 


LSTM 拥 有 使 长 /短期 记忆 成 为 可 能 的 门 (gate) 。 这 些 | 门 包 存 在 于 通过 层 连 接 的 内 存 块 中 。 


输出 门 


fI ES JU 


Xt 


isl 


块 单 元 内 有 3 种 类 型 的 门 : 
C 输入 门 (input gate) : 对 到 块 单元 的 输入 进行 变换 ( 写 入 ) 。 
- 输出 门 (output gate) : 对 块 单元 的 输出 进行 变换 CGE) 。 
- 遗忘 门 (forget gate) : 对 旧 的 块 单元 值 进行 变换 (XX). 
每 个 门 都 像 一 个 控制 读 / 写 的 开关 ， 从 而 将 长 期 记忆 功能 集成 到 LSTM 模 型 中 。 
LSTM 可 用 于 解决 以 下 序列 预测 问题 : 
- 直接 序列 预测 。 
` 序列 分 类 。 
+ 序列 生成 。 
序列 预测 序列 。 
GRU 和 LSTM 之 则 的 主要 区 别 是 : 
GRU 有 两 个 门 ， 而 LSTM 有 3 个 门 。 
: GRU 不 具有 任何 与 暴露 的 隐 含 状态 不 同 的 内 部 存储 块 。 它 们 没有 LSTM 中 的 输出 门 。 


在 计 草 GRU 中 的 输出 时 ， 只 应 用 一 个 非 线性 过 程 。 


6.4 RB 


深度 学 习 中 另 一 组 重要 的 昼 经 网 络 是 卷 积 神经 网 络 (CNN) 。 它 们 专门 用 于 图 像 识 别 和 分 类 。CNN 具 有 多 层 神 经 网 络 ， 从 
图 像 中 提取 信息 并 确定 它们 所 属 的 类 别 。 


例如 ， 如 果 CNN 是 用 一 组 独 的 图 像 训练 的 ， 那 么 可 以 用 来 检测 图 像 是 人 否 为 猫 。 本 节 会 介绍 CNN 的 以 构 和 工作 过 程 。 
一 个 程序 中 ， 任 何 图 像 只 是 一 组 向 量 格式 的 RGB 数字 ， 如 果 可 以 让 神经 网 络 理解 模式 ， 那 么 它 可 以 构建 CNN 并 检测 图 像 。 


单 规 的 神经 网 络 是 通用 的 数学 逼近 器 ， 它 接收 输入 ， 通 过 一 系列 国 数 对 其 进行 转换 ， 并 导出 输出 。 然 而 ， 这 些 音 规 的 神经 网 
络 在 图 像 分 析 中 不 能 很 好 地 扩展 。 对 于 32*32 像 素 的 RGB 图 像 ， 隐 合 层 将 县 有 32*32*3=3072 个 权重 。 常 规 神经 网 络 适用 于 这 种 
情况 。 但 是 ， 当 RGB 图 像 扩 展 到 200*200 像 素 大 小 时 ， 隐 含 层 所 需 的 权重 数量 为 200*200*3=120000， 此 时 网 络 的 性 能 不 佳 。 


可 以 引入 CNN 来 解决 这 个 可 扩展 性 问题 。 在 CNN 中 ，CNN 的 层 具有 三 维 (高 度 height、 寓 度 width 和 深度 depth) 排列 的 


昼 经 元 。 


下 图 显示 了 一 个 神经 网 络 和 一 个 CNN。 


: 卷 积 层 (convolutional layer) o 
: 池 化 层 (pooling layer) 。 


: 全 连接 层 (fully connected layer) o 


卷 积 层 执行 繁重 的 数学 运算 。 在 计算 机 视觉 中 ， 处 理 图 像 的 典型 万 法 是 使 用 过 滤器 对 其 卷 积 ， 以 提取 其 中 的 显著 特征 。 这 是 
CNN 中 的 第 一 步 操 作 。 输 入 图 像 应 用 过 滤器 逻辑 来 创建 激活 映射 (activation map) 或 特征 映射 (feature map) 。 


通过 在 图 像 的 每 个 3*3 向 量 上 应 用 核 向 量 来 创建 卷 积 特征 向 量 。 


SAENZ ERA F : 
1) 将 特征 和 图 像 块 排 成 一 行 。 
2) 将 每 个 图 像 像素 乘 以 相应 的 特征 像素 。 
3) 将 结果 加 忌 。 
4) 按 特征 像素 的 总 数 划 分 加 总 结果 。 


一 旦 过 滤 完 成 ， 下 一 步 束 是 压缩 过 滤 后 的 像素 。 


第 2 步 : 池 化 


在 这 一 步 中 ， 缩 小 图 像 堆 栈 。 对 于 在 卷 积 步骤 中 获得 的 每 个 特征 ， 建 立 一 个 矩阵 ， 然 后 在 每 个 选 定 和 矩阵 中 找到 最 大 值 以 收缩 
整个 输入 ， 步 又 如 下 : 


1) 选择 一 个 窗口 大 小 (通常 为 2 或 3) 。 

2) 选择 像素 的 一 个 步 移 动 汽 围 ( 通 单 为 2) 。 

3) 将 窗口 滑 过 已 过 滤 的 图 像 。 

4) 对 于 每 个 窗口 ， 选 取 最 大 值 。 

如 果 滑 动 窗口 没有 先前 窗口 中 所 需 的 单元 格 数量 ， 则 采取 任何 可 用 的 值 。 
第 3 步 : 使 用 ReLU 进 行 标准 化 


在 这 一 步 中 ， 选 取 池 化 输出 和 每 个 像素 ， 应 用 ReLU 进 行 标准 化 。 如 果 任 何 一 个 值 为 负数 ， 则 将 其 设 为 零 。 


第 4 步 : 全 连接 层 中 的 投票 和 分 类 


最 后 一 层 是 全 连接 层 ， 对 该 组 值 进行 投票 以 确定 输出 的 类 别 。 全 连接 层 只 是 先前 所 有 输出 的 合并 算 阵 。 


这 是 最 后 一 层 ， 输 出 是 根据 最 高 投票 类 别 确定 的 。 
通过 合并 步骤 1 ~ 3 中 的 层 ， 形 成 了 卷 积 网 络 ， 可 以 通过 反 向 传播 来 减少 误差 项 以 给 出 最 好 的 预测 。 


这 些 层 可 以 重复 多 次 ， 每 个 层 的 输出 形成 下 一 层 的 输入 。 


一 个 经 典 的 CNN 架 构 应 该 是 下 面 这 样 的 : 


Input-> Conv-> ReLU -> Conv -> ReLU -> Pool -> ReLU-> Cony -> ReLU -> Pool --Fully Connected 


下 图 显示 了 一 个 基于 CNN 的 分 类 预测 示例 。 


sunset 


- 最 大 池 化 


着 积 + 池 化 层 二 值 分 类 


第 7 章 会 介绍 使 用 R 实 现 CNN。 


LeNet 


6.5 ”常见 的 CNN 架 构 


LeNet-5 是 20 世 纪 90 年 代 Le Cun 为 识别 手写 和 机 器 打印 字符 设计 的 卷 积 网 络 。 


这 是 卷 积 网 络 的 第 一 个 成 功 应 用 ， 它 具有 以 下 架构 。 
ASA 池 化 45 A 池 化 全 连接 ”全 连接 ”输出 预测 


dog (0:01) 
cat (0.04) 
boat (0.94) 
bird (0.021 


6.6 使 用 RNN 进 行 湿度 预测 


作为 RNN 的 第 一 个 用 例 ， 我 们 来 看 如 何 使 用 函数 trainr( 来 训练 和 预测 RNN。 目 的 是 预测 某 一 地 点 每 天 的 湿度 以 获得 一 个 函 


数 。 输 入 文件 包含 澳大利亚 多 个 气象 站 的 每 日 天 气 观测 资料 。 这 些 观 测 结果 来 自 澳 大 利 亚 联 邦 气象 局 ， 随 后 对 观测 结果 进行 处 
E, 创建 一 个 相对 较 大 的 样本 数据 集 ， 以 供 使 用 R 和 添加 包 rattle.data 来 说 明 数 据 分 析 、 数 据 挖 气 和 开展 数据 科学 。 数 据 集 
weatherAUS 会 定期 更 新 ， 并 且 此 添加 包 的 更 新 通常 与 此 数据 集 的 更 新 相对 应 。 数 据 由 气象 局 网 站 更 新 。 数 据 集 locationsAUS 
记录 每 个 气象 站 的 位 置 。 源 数据 集 由 澳大利亚 联邦 气象 局 所 有 ， 需 授权 使 用 。 


Q= : 此 数据 集 的 CSV 版 本 可 在 以 下 链接 中 找到 : https://rattle.togaware.com/weatherAUS.csvo 


数据 集 weatherAUs 是 一 个 数据 框 ， 其 中 包含 澳大利亚 超过 42 个 气象 站 的 每 日 超过 140000 个 观测 数据 。 访 数据 集 包 合 以 下 


" 


: Date: 观察 值 的 日 期 〈 一 个 Date 对 象 ) 。 

‘Location: 气象 站 位 置 的 通用 名 称 。 

: MinTemp: 以 摄氏 度 为 单位 的 最 低温 度 。 

: MaxTemp: 以 摄氏 度 为 单位 的 最 高 温 

‘Rainfall: 当天 记录 的 降雨 量 ， 单 位 为 毫米 。 

- Evaporation: 24 小 时 内 至 上 午 9 点 ， 所 谓 的 蒸发 严 蒸 发 量 (ZX) 。 
- Sunshine: 白天 阳光 充足 的 小 时 数 。 

- WindGustDir: 24 小 时 内 至 午夜 的 最 强 阵风 的 方向 。 

- WindGustSpeed: 24 小 时 内 至 午夜 的 最 强 阵 风速 度 〈 公 里 /小 时 ) 。 
- Temp9am: 上 午 9 点 的 温度 (摄氏度 ) o 

- RelHumid9am: 上 午 9 点 的 相对 湿度 (百分比 ) 。 


-Cloud9am: 上 午 9 点 云层 遮蔽 天 空 的 占 比 ， 以 八 分 之 一 为 单位 来 衡量 。 它 记录 了 多 少 个 八 分 之 一 的 天 空 被 云 遮 挡 。0 表 示 完 


Eo 
晴朗 的 天 空 ， 而 8 表示 完全 阴暗 的 天 空 。 
- WindSpeed9am: 上 午 9 点 前 10 分 钟 的 平均 风速 (公里 /小 时 ) 。 
Pressure9am: 上 午 9 点 降 至 平均 海平 面 水 平 的 大 气压 力 〈 百 帕 ) 。 
-Temp3pm: 下 午 3 点 的 温度 (摄氏 度 ) o 
- RelHumid3pm: 下 午 3 点 的 相对 湿度 (百分比 ) 。 
: Cloud3pm: 下 午 3 点 云层 遮 住 天 空 的 占 比 (以 八 分 之 一 计 ) © 
- WindSpeed3pm: 下 午 3 点 前 10 分 钟 的 平均 风速 (公里 /小 时 ) 。 
-Pressure3pm: 下 午 3 点 降 至 平均 海平 面 水 平 的 大 气压 力 ( 百 帕 ) 。 
ChangeTemp: 温度 变化 。 


: ChangeTempDir: 温度 变化 的 方向 。 


: ChangeTempMag: 温度 变化 的 幅度 
. ChangeWindDirect: 风 改 变 的 方向 。 
: MaxWindPeriod: 最 大 风 期 。 
: RainToday: 如 果 24 小 时 内 至 上 午 9 点 的 降水 量 〈 毫 米 ) BISA, MA MBH, SMA. 
: TempRange: 24 小 时 内 至 上 午 9 点 最 低 和 最 高 温度 〈 摄 氏 度 ) 之 间 的 差异 。 
- PressuteChange: 压力 变化 。 
: RISK MM: 下 雨量 。 一 种 衡量 风险 的 方法 。 
RainTomorrow: 目标 变量 。 明 天 会 下 雨 吗 ? 

在 我 们 的 例子 中 ， 将 只 使 用 其 中 两 个 区 量 : 
. Date: 观察 值 的 日 期 (一 个 Date 对 象 ) 。 


: RelHumid9am: 上 午 9 点 的 相对 湿度 (百分比 ) 。 


如 前 所 述 ， 这 个 例子 的 目的 是 预测 某 一 地 点 每 天 的 湿度 以 获得 一 个 冰 数 。 下 面 是 这 个 例子 将 使 用 的 代码 : 
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### Chapter 6 - Introduction to RNNs - using R ########## 
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library ("rattle.data") 
library ("rnn") 


data (weatherAUS) 
View (weatherAUS) 


#extract only 1 and 14 clumn and first 3040 rows (Albury location) 
data=weatherAUS [1:3040,c(1,14) ] 
summary (data) 


data cleaned «- na.omit (data) 
data used-data cleaned[1:3000] 


x-data cleaned[,1] 
y-data cleaned[,2] 


head (x) 

head (y) 

X-matrix(x, nrow - 30) 

Y=matrix(y, nrow = 30) 

# Standardize in the interval 0 - 1 


Yscaled = (Y - min(Y)) / (max(Y) - min(Y)) 
Y-t(Yscaled) 

train=1:70 

test=71:100 


model «- trainr(Y = Y[train,], 
X - Y[train,], 
learningrate - 0.05, 
hidden dim - 16, 
numepochs - 1000) 


plot (colMeans (modelSerror) ,type='1',xlab='epoch', ylab='errors') 
Yp <- predictr(model, Y[test,]) 


plot (as.vector(t(Y[test,])), col = 'red', type='l1', 
main = "Actual vs Predicted Humidity: testing set", 


ylab = "Y,Yp") 
lines (as.vector(t(Yp)), type = '1l', col = 'black') 
legend ("bottomright", c("Predicted", "Actual"), 
col = c("red", "black"), 
lty = c(1,1), lwd = c(1,1)) 


HH HH HH HH FE HE FE FE E HE HH HE FE FE FE TER HH HH HH HH HH EH HH HH HH HH HE E HE 


像 往 单一 样 ， 逐 行 分 析 代 码 ， 详 细 解 释 用 于 捕获 结果 的 所 有 功能 : 


添加 包 


分 析 、 数 据 挖掘 和 数据 科学 任务 。 


library ("rattle.data") 
Library ("rnn") 


原始 代码 的 前 两 行 用 于 加 载 分 析 所 需 的 库 。 


Q: 记 住 ， 想 要 安装 初始 的 有 R 中 不 存在 的 添加 包 ， 必 须 使 用 函数 install.package。 这 是 安装 添加 包 的 主要 
的 名 字 作 为 向 量 专 


参数 ， 从 仓库 中 下 载 添加 包 


AT RR 


J+ 
AYO 


添加 包 rattle.data 包 含 添 加 包 rattle 的 默认 示例 使 用 的 数据 集 


添加 包 rnn 包 含 几 个 用 于 在 R 中 实现 RNN 的 为数 : 


data (weatherAUS) 
View (weatherAUS) 


使 用 该 命令 加 载 名 为 weatherAUS 的 数据 集 
于 在 数据 杠 对 象 上 调用 电子 表格 样式 的 数据 查看 器 ， 如 下 图 所 示 。 


© | &| Y Fiter 


M rae enm ad Ae at tet tt nt i ht tint el nt nt Se O 


phy 2 
这 个 函数 


。 该 数据 集 本 身 可 以 独立 于 添加 包 rattle 使 用 ， 以 进 4 


只 需要 使 用 一 


E 


述 ， 该 数据 集 包 含 在 添加 包 rattle.data 中 。 在 第 二 行 中 ， 


TU ARSE 


ER ZA View FH 


1 Albury NA NA|W 1007.7 8 

2 Albury NA NA | WNW em zs 1010.6 1007.8 NA E 

3 NA NA | WSW [wsw 30 1007.6 1008.7 NA 

4 NA NA E 16 | 1017.6 1012.8 | NA | 

5 NA NA | ENE | NW 33 1010.8 1006.0 7 | 

6 NA NA | lw lw z| 1009.2 10054 | NA | 

7 F NA i NA | sw lw mM 19 1009.6 | 1008.2 ' 1 ii 

8 NA NA | | SSE | w 19| 1013.4 1010.1 | NA | 

9 NA NA 80 | SE [nw 9 1008.9 1003.6 NA | 
10 NA NA | 28 | 5 SSE 27 | 1007.0 1005.7 | NA E 
11 NA NA | 30 | SSE | ESE 22 1011.8 1008.7 NA | 
12 NA NA | 31 | NE | ENE 91 | 1010.5 1004.2 | 8 | 
13 NA NA | Ww 61 | NNW | NNW 93 994.3 993.0 8 | 
14 NA NA sw 44|W | ssw 65 43 | 1001.2 1001.8 | NA | 
15 , , NA NA | NA NA | s | WNW 30 57 32 1009.7 1008.7 NA | 
16 Albury 9.8 | 27.7 NA NA NA | WNW 50 | NA WNW NA 22 50 28 1013.4 1010.3 0 | 
17 Albury 14.1 20.9 0.0 NA NA | ENE 22 | SSW E 11 9 69 82 1012.2 1010.4 8 
18 Albury | 13.5 | 22.9 16.8 NA NA | w 63 | N | WNW | 6| 20 | 80 65 | 1005.8 1002.2 | 8 | 
19 Albury 112 22.5 10.6 NA NA | SSE 43 | wsw | SW 24 17 47 32 1009.4 1009.7 NA | 
20 Albury | 98 | 25.6 0.0 | NA NA | SSE 26 | SE | NNW | "| 6 | 45 26 | 10192 1017.1 NA | 
21 Albury 11.5 29.33 0.0 NA NA|S 24 | SE SE 9 9 56 28 1019.3 1014.8 NA 
22 Albury [ 17.1 33.0 0.0 NA NA | NE 43 | NE N | 17 | 22 | 38 28 | 1013.6 1008.1 NA | 
23 Albury 20.5 31.8 0.0 NA NA | WNW 41 | w w 19 20 54 24 1007.8 1005.7 NA | 
2a |20081224 | amuy | 153|  309| oo|) maf mju ES a| mo] asz| | 
25 Albury 12.6 324 0.0 NA NA |W 43|E Ww 4 19 49 17 1012. 9 1010.1 NA 
26 Albury | 16.2 | 33.9 oo| NA NA | WSW 35 | SE | WSW | 9 | 13 | 45 19 | 1010.9 1007.6 | NA | 
27 | 2008-12-27 | Albury 16.9 33.0 0.0 NA NA | WSW 57 | NA Ww 0 26 41 28 1006.8 1003.6 NA 
28 | 2008-12-28 | Albury | 20.1 | 32.7 0.0 NA NA | WNW a| N | WNW | 13 | 30 | 56 15 | 1005.2 1001.7 NA | 

aT SS A poe ~ = E oT m 
Showing 1 to 30 of 145,460 entries 


回 到 代码 中 ， 我 们 只 使 用 了 两 


(Albury) 


data=weatherAUS [1:3040,c(1,14) ] 


(FFARR ENsummary()iH# 


ARE 
个 变量 。 


另外 ， 访 数据 集 包 含 来 目 澳大利亚 不 同 地 点 的 数据 ， 把 学 习 限 制 在 第 一 个 地 扣 


行 初 步 的 数据 分 析 : 


> summary (data) 


Date 
Min. : 2008-12-01 
lst Qu. :2010-12-30 
Median :2013-04-27 
Mean : 2013-03-22 
3rd Qu. :2015-05-27 
Max. > 2017-06-25 


Humidity9am 
Min. 18., 
lst Qu.: 61. 
Median : 76. 
Mean 74 
3rd Qu.: 88 
Max. :100 
NA's : 9 


00 
00 
00 


.07 
.00 
.00 


函数 summary0 为 每 个 变量 返回 一 组 统计 信息 。 特 别 有 利于 突出 显示 提供 给 变量 


My 4 Em 
于 这 个 变量 ， 


data cleaned «- na.omit (data) 
data used-data cleaned[1:3000] 


Humidity9am 的 结果 ， 即 我 们 的 目标 。 对 


爹 测 到 了 9 个 缺失 值 。 要 删除 缺失 值 ， 可 使 用 函数 na.omit(0， 它 会 丢失 任何 包含 缺失 值 的 行 并 永远 遗忘 它们 : 


第 二 行 代码 将 分 析 限 制 在 前 3000 个 观测 值 。 现 在 必须 将 输入 和 输出 数据 设置 为 函数 trainr(0 所 需 的 格式 : 


x=data_cleaned[,1] 
y=data_cleaned[, 2] 


通过 这 种 方式 ， 


X=matrix (x, 
Y=matrix(y, 


x 将 代表 输入 ，y 将 代表 目标 变量 : 
nrow = 30) 
nrow = 30) 


通过 这 段 代 码 ， 可 以 构建 一 个 包含 30 行 和 100 列 的 窍 孟 。 这 是 将 用 于 建 模 的 六 数 所 需 的 尺寸 设置 。 现 在 可 以 进行 标准 化 : 


Yscaled 


= (Y - min(Y)) / (max(Y) 
Y=t (Yscaled) 


一 min (Y) ) 


在 这 个 例子 中 ,使 用 了 最 小 -最 大 方法 〈 通 单 称 为 特征 缩放 ) 来 获取 范围 [0，1] 中 的 所 有 缩放 数据 ， 公 式 如 下 : 


scaled 


train=1:70 
test=71:100 


E yY min 


yY max y min 


在 标准 化 过 程 中 ， 必 须 计算 每 个 数据 框 列 的 最 小 值 和 最 大 值 ， 然 后 对 获得 的 息 阵 进行 转换 : 


在 这 些 代 码 行 中 ， 数 据 集 被 分 成 70 : 30， 目 的 是 使 用 70% 的 数据 训练 网 络 ， 其 余 30% 用 于 测试 网 络 。 现 在 是 构建 和 训练 模 
型 的 时 候 了 : 


model «- trainr(Y = Y[train,], 
X = Y[train,], 
learningrate - 0.05, 


hidden dim - 16, 
numepochs - 1000) 


辫 数 trainr0 在 R 环 境 中 训练 一 个 RNN。 我 们 在 隐 合 层 中 使 用 了 16 个 神经 元 ， 并 且 epoch 数 为 1000。 运 行 冰 数 trainr0 需 要 几 
分 钟 ， 因 为 训练 是 基于 X 和 YY 进行 的 。 以 下 是 R 提 示 中 显示 的 最 后 10 个 训练 epoch 的 结果 : 


Trained epoch: 990 - Learning rate: 0.05 
Epoch error: 0.382192317958489 

Trained epoch: 991 - Learning rate: 0.05 
Epoch error: 0.376313106021699 

Trained epoch: 992 - Learning rate: 0.05 
Epoch error: 0.380178990096884 

Trained epoch: 993 - Learning rate: 0.05 
Epoch error: 0.379260612039631 

Trained epoch: 994 - Learning rate: 0.05 
Epoch error: 0.380475314573825 

Trained epoch: 995 - Learning rate: 0.05 
Epoch error: 0.38169633378182 

Trained epoch: 996 - Learning rate: 0.05 
Epoch error: 0.373951666567461 

Trained epoch: 997 - Learning rate: 0.05 
Epoch error: 0.374880624458934 

Trained epoch: 998 - Learning rate: 0.05 
Epoch error: 0.384185799764121 

Trained epoch: 999 - Learning rate: 0.05 
Epoch error: 0.381408598560978 

Trained epoch: 1000 - Learning rate: 0.05 
Epoch error: 0.375245688144538 


可 以 绘制 算法 产生 的 误差 随 epoch 的 变化 来 查看 算法 的 演变 : 


plot (colMeans (modelSerror) ,type='1', xlab='epoch', ylab='errors') 


下 图 显示 了 epoch 与 误差 之 间 的 关系 。 


errors 


0 200 400 600 800 1000 
epoch 


至 此 ， 终 于 训练 好 了 网 络 并 准备 好 使 用 ， 现 在 可 以 用 它 来 进行 预测 了 。 请 记 住 ， 我 们 已 经 预 留 了 30% 的 可 用 数据 来 测试 网 
络 。 是 时 候 使 用 它 了 : 


Yp «- predictr(model, Y[test,]) 


最 后 ， 为 了 比较 结果 ， 可 绘制 一 张 图 ， 按 顺序 显示 测试 集中 的 湿度 和 预测 结果 : 


plot(as.vector(t(Y[test,])), col = 'red', type='l1', 
main = "Actual vs Predicted Humidity: testing set", 
ylab = "Y,Yp") 

lines (as.vector(t(Yp)), type = 'l', col = 'black') 


legend ("bottomright", c("Predicted", "Actual"), 
col = c("red", "black"), 
icy = c(1,1), lwd = e(1,1)) 


下 图 显示 了 实际 值 和 预测 值 。 


Actual vs Predicted Humidity: testing set 


| | TI WE 


Y Yp 


0.4 


Index 


从 图 中 可 以 看 出 ， 有 一 点 值得 注意 : 数据 得 到 了 很 好 的 拟 合 。 这 可 以 表明 该 模型 可 很 好 地 预测 湿度 。 


6.7 小 结 


本 草 介 绍 了 RNN 以 及 如 何 使 用 内 部 存储 器 进行 处 理 。 同 时 ， 还 介绍 了 CNN， 它 是 主要 用 于 图 像 识 别 的 标准 化 神经 网 络 。 对 
于 RNN， 人 研究 了 R 中 的 一 些 实例 实现 。 


我 们 学 习 了 如 何 训 | 练 、 测 试 和 评估 RNN， 还 学 习 了 如 何在 R 环 境 中 可 视 化 RNN 模 型 ， 研 究 了 LSTM 模 型 ， 并 通过 这 些 概念 引 
入 了 CNN 和 通用 CNN 架 构 : LeNet, 


在 下 一 章 中 ， 我 们 将 看 到 更 多 涉及 神经 网 络 和 深度 学 习 人 在 R 中 实现 的 案例 。 


第 7/ 章 ”神经 网 络 案例 一 一 局 级 主题 


借助 人 工 神经 网 络 ， 我 们 稼 试 模拟 典型 的 人 类 大 脑 活动 ， 如 图 像 感 旬 、 模 式 识 别 、 语 言 理解 、 感 名- 运动 协调 等 。 人 工 神经 
网 络 模 型 由 节操 系统 组 成 ， 相 当 于 人 类 大 脑 的 神经 元 ， 这 些 证 点 通过 加 权 链 接 互 连 ， 相 当 于 神经 元 之 间 的 突 触 。 通 过 过 代 地 修改 


链接 权重 ， 直 到 神经 网 络 的 输出 收敛 。 


最 后 一 章 将 介绍 不 同 案例 的 ANN 应 用 以 及 在 人 工 智能 领域 如 何 使 用 神经 网 络 。 我 们 将 看 到 R 中 的 一 些 案例 及 其 实现 ， 对 于 其 
他 实际 工作 场景 ， 可 调整 一 组 相同 的 程序 。 


ARAH: 


: TensorFlow 5 R & 4& 5X, 

Keras 与 R 的 集成 

- 使 用 数据 集 MNIST 与 H2O 进 行 手写 数字 识别 

. 使 用 mxnet 构 建 LSTM 

- 使 用 自动 编码 器 和 H2O 进 行 数据 聚 类 

: 使 用 H2O 进 行 主 成 分 分 析 (Principal Component Analysis, PCA) 
. 使 用 添加 包 darch 检 测 乳 腺 痛 


到 本 草 结束 时 ， 你 将 了 解 R 环 境 中 学 习 过 程 的 高 级 概念 及 其 实现 。 我 们 将 应 用 不 同类 型 的 算法 来 实现 神经 网 络 ， 也 将 回顾 如 
何 进 行 训练 、 测 试 和 部 署 模型 ， 还 将 再 次 审视 如 何 执行 正确 的 评估 程序 。 深 度 学 习 是 基于 高 级 神经 网 络 的 最 新 拉 术 ， 因 此 我 们 还 


将 涵盖 更 多 深度 学 习 的 案例 。 


7.1 TensorFlow 与 R 的 集成 


TensorFlow 是 Google 为 机 器 智能 提供 的 开源 数值 计算 库 。 它 包含 构建 深度 学 习 模 型 所 需 的 所 有 编程 ， 并 为 开发 人 员 提 供 一 
个 墨盒 接口 进行 编程 。 用 于 TensorFlow 的 Keras API 为 神经 网 络 提 供 高 级 接口 。 


Python 事实 上 是 深度 学 习 的 编程 语言 ， 但 R 正 在 人 退 赶 它 。 深 度 学 习 添 加 包 现 在 可 用 于 R， 开 友人 员 可 以 轻松 下 载 类 似 于 其 他 
R 库 的 TensorFlow 或 Keras 进 行使 用 。 


在 TensorFlow 中 ， 图 中 的 节点 表示 数学 运算 ， 而 图 边 表示 在 它们 之 间 传 递 的 多 维 数据 数组 (KÆ) 。TensorFlow 最 初 是 由 
谷歌 智能 团队 在 谷歌 天 于 机 器 学 习 和 深度 神经 网 络 研究 的 机 器 智能 研究 中 开 及 的， 但 现在 已 经 开源 。TensorFlow 在 适当 配置 时 
利用 GPU 处 理 。 


TensorFlow 的 常用 案例 如 下 : 
.图像 识别 


. 计算 机 视觉 


` 基于 文本 的 处 理 


- 手写 识别 


- 许多 其 他 功能 


在 这 一 部 分 ， 我 们 将 看 到 如 何 将 TensorFlow 库 引入 R。 通 过 在 R 中 使 用 TensorFlow， 可 以 进行 更 多 的 深度 学 习 。 为 了 使 用 
TensorFlow， 必 须 首先 安 凌 Python。 如果 你 的 机 器 上 没有 安 妆 Python ， 现 在 是 时 候 了 解 尼 了 。 


Python 是 一 种 动态 的 面向 对 象 编程 (Object-Oriented Programming, OOP) 语言 ， 可 用 于 许多 类 型 的 软件 开发 。 它 提 
供与 其 他 语言 和 程序 集成 的 强大 支持 ， 以 及 一 个 大 型 标准 库 ， 并 且 可 以 在 几 天 内 学 完 。 用 Python 开 发 可 以 确保 生产 力 的 大 幅 提 
高 ， 并 且 程 序 员 认 为 Python 鼓励 开 上 友 更 高 质量 和 更 高 可 维护 性 的 代码 。Python 可 在 Windows、Linux/Unix、macOs X, 
OS/2. Amiga, Palm Handhelds 和 Nokia 手 机 上 运行 。 它 也 适用 于 Java 和 .NET 虚 拟 机 。Python 在 OSI 认可 的 开源 许可 下 获得 
认证 ， 供 免费 使 用 ， 包 括 商 业 产 品 。 


Python 由 Guido van Rossum 于 20 世 纪 90 年 代 初 在 荷兰 的 Stichting Mathematisch Centrum 创 建 的 ， 作 为 ABC 的 一 种 语 
言 的 继任 者 。Guido 仍 然 是 Python 的 主要 作者 ， 尽 管 它 包含 其 他 人 的 许多 贡献 。 


Wat 如 果 你 不 知道 要 使 用 哪个 Python 版 本 ， 有 一 个 (英文 ) 文档 可 以 帮助 你 选择 。 原 则 上 ， 如 果 你 是 新 手 ， 推 荐 选择 
Python 3， 如 果 你 需要 使 用 可 能 与 Python 3 不 兼容 的 第 三 方 软件 包 ， 推 荐 使 用 Python 2.7。 有 关 可 用 版 本 以 及 如 何 安装 Python 的 所 
有 信息 均 在 https://www.python.org/ 中 给 出 。 


在 给 机 器 正确 安装 Python 版 本 后 ， 需 要 安装 TensorFlow， 可 以 从 https://www.tensorflow.org/ 检 索 操作 系统 的 所 有 库 信 
息 和 可 用 版 本 。 


另外 ， 在 安 涂 部分， 可 以 找到 一 系列 指南 来 说 明 如 何 安 滚 允许 我 们 用 Python 编 写 应 用 程序 的 TensorFlow 版 本 。 访 指南 可 指 


F: 
- 在 Ubuntu 上 安装 TensotFlow。 
- 在 macOS X EE € TensotFlow.; 
- J£ Windows E AE TensorFlow. 
: A Jg 6 3& TensorFlow. 
例如 ， 要 在 Windows 上 安装 Tensorflow ， 必 须 选 择 以 下 类 型 之 一 : 
. 仅 支 持 CPU 的 TensotFlow。 


. 支持 GPU 的 TensotFlow。 


要 安装 TensorFlow， 请 以 管理 员 权 限 启动 终端 。 然 后 在 该 终端 发 出 适当 的 pip3 安 装 命令 。 要 安装 仅 限 CPU 的 版 本 ， 请 输入 
以 下 命令 : 


C:\> pip3 install --upgrade tensorflow 


屏幕 中 会 显示 一 系列 代码 行 ， 以 便 通 知 我 们 安装 过 程 的 执行 情况 ， 如 下 图 所 示 。 


E Amministratore: Prompt dei comandi = O x 


(c) 2017 Microsoft Corporation. Tutti i diritti sono riservati. ^ 


C:\WINDOWS\system32>pip3 install --upgrade tensorflow 
Collecting tensorflow 
Using cached tensorflow-1.3.0-cp36-cp36m-win amd64.whl 
Collecting tensorflow-tensorboard«0.2.0,5»-0.1.0 (from tensorflow) 
Using cached tensorflow tensorboard-0.1.6-py3-none-any.whl 
Collecting protobuf»-3.3.0 (from tensorflow) 
Using cached protobuf-3.4.0-py2.py3-none-any.whl 
Collecting wheel»-0.26 (from tensorflow) 
Using cached wheel-0.30.0-py2.py3-none-any.whl 
Collecting six»-1.10.0 (from tensorflow) 
Using cached six-1.10.0-py2.py3-none-any.whl 
Collecting numpy»-1.11.0 (from tensorflow) 
Using cached numpy-1.13.1-cp36-none-win amd64.whl 
Collecting markdown>=2.6.8 (from tensorflow-tensorboanrd«0.2.0,5-0.1.0-»tensorflow) 
Collecting werkzeug»-0.11.10 (from tensorflow-tensorboard«0.2.0,5-0.1.0-»tensorflow) 
Using cached Werkzeug-0.12.2-py2.py3-none-any.whl 
Collecting html5lib--0.9999999 (from tensorflow-tensorboard<@.2 
Collecting bleach--1.5.0 (from tensorflow-tensorboard«0.2.0,»-0. 
Using cached bleach-1.5.0-py2.py3-none-any.whl 
Collecting setuptools (from protobuf»-3.3.0-»tensorflow) 
Using cached setuptools-36.5.@-py2.py3-none-any.whl 
Installing collected packages: markdown, setuptools, six, protobuf, werkzeug, html5lib, wheel, numpy, bleach, tensorflow-tensorboard, tensorflow 
Found existing installation: setuptools 28.8.0 
Uninstalling setuptools-28.8.0: 
Successfully uninstalled setuptools-28.8.0 
Successfully installed bleach-1.5.@ htmls5lib-0.9999999 markdown-2.6.9 numpy-1.13.1 protobuf-3.4.0 setuptools-36.5.0 six-1.10.0 tensorflow-1.3.0 tensorflow-tensorboard-0.1.6 
werkzeug-@.12.2 wheel-0.30.0 


.0,»-0.1.0-»tensorflow) 
1.0-»tensorflow) 


C: \WINDOWS\system32> 


在 这 一 点 上 上， 可 以 回 到 我 们 最 喜欢 的 环境 中 ， 我 措 的 是 R 开 友 环 境 。 现 需要 将 接口 安装 到 TensorFlow。TensorFlow 的 R 授 
口 使 你 可 以 高 效 地 使 用 高 级 Keras 和 Estimator APl， 当 需要 更 多 控制 时 ， 它 可 以 提供 对 TensorFlow 核 心 API 的 完全 访问 。 要 将 R 
接口 安装 到 TensorFlow， 需 遵守 以 下 过 程 。 


首先 ， 安 装 来 自 CRAN 的 R 添 加 包 tensorflow， 如 下 所 示 : 


install .packages ("tensorflow") 


然后 ， 使 用 函数 install tensorflow() 安 装 tensorflow (对 于 正确 的 安装 过 程 ， 你 必须 具有 管理 员 权 限 ) 


library (tensorflow) 
install tensorflow() 


由 下 确认 安 交 是 否 成功 : 


sess = tf$Session() 
hello <- tfS$Sconstant('Hello, TensorFlow!') 
sessS$run(hello) 


-去 


这 将 为 你 提供 TensorFlow 的 默认 安 濠 ， 适 用 于 R 湛 加 包 tensorflow。 如 果 想 了 解 其 他 安装 选项 ， 请 继续 
果 安 装 了 正确 的 CUDA 库 ， 可 以 安装 可 利用 NVIDIA GPU 的 TensorFlow 版 本 。 下 面 的 代码 可 以 检查 安装 是 否 成 功 : 


> library (tensorflow) 

> sess = tf$Session() 

> hello <- tf$constant('Hello, TensorFlow!') 
> sess$run (hello) 

b'Hello, TensorFlow! ' 


7.2 Keras 与 R 的 集成 


Keras 是 一 套 以 Python 编码 的 开源 神经 网 络 库 。 它 能 够 在 MxNet、TensorFlow 或 Theano 上 运行 。 在 Rstudio 中 安装 Keras 
的 步骤 非常 简单 。 下 面 的 代码 片段 给 出 了 安装 的 步骤 ， 可 以 通过 检查 数据 集 MNIST 的 负载 来 检查 Keras 是 人 否 正 在 工作 。 


默认 情 ) 咒 下 ，RStudio 加 载 TensorFlow 的 CPU 版 本 。 一 旦 Keras 被 加 载 ， 则 会 得 到 一 组 强大 的 深度 学 习 库 ，R 程 序 员 可 以 利 
用 它 来 执行 神经 网 络 和 深度 学 习 。 要 为 R 安 和 凌 Keras， 请 使 用 以 下 代码 : 


install.packages ("devtools") 
devtools::install github("rstudio/keras") 


现 人 在， 加载 添加 包 keras: 


library (keras) 


最 后 ， 通 过 加 载 数 据 集 MNIST 判 断 keras 是 人 否 被 正确 安 闻 : 


> data=dataset mnist () 


7.3 ”在 R 中 使 用 MNIST HWR 


手写 识别 (Handwriting Recognition, HWR) 是 现代 技术 中 非常 常用 的 一 种 程序 。 手 写 文 本 的 图 像 可 以 通过 光学 扫描 
(光学 字符 识别 ，Optical Character Recognition, OCR) 或 智能 单词 识别 从 一 张 纸 离线 检测 。 或 者 ， 可 以 在 线 检测 笔尖 移动 
(例如 ， 在 笔 - 计 算 机 表面 ， 因 为 有 更 多 线索 可 用 ， 所 以 通常 更 容易 ) 。 从 扩 术 上 来 说 ， 手 写 识 别 是 计算 机 能 够 接收 和 解释 来 目 
纸 质 文档 、 照 片 、 触 摸 屏 和 其 他 设备 等 的 手写 智能 输入 的 能 力 。 


HWR 通 过 通 弟 需要 OCR 的 各 种 技术 来 执行 。 但 是 ， 一 个 完整 的 脚本 识别 系统 还 可 以 管理 格式 、 执 行 正 确 的 字符 分 割 、 找 到 
最 合理 的 早 词 。 


MNIST (Modified National Institute of Standards and Technology) 是 一 个 手写 数字 的 大 型 数据 库 。 它 包含 70000 个 
数据 样本 ， 是 更 大 的 数据 集 NI1ST 的 一 个 子 集 。 这 些 数字 的 分 辩 率 为 28x28 像 泰和 存储 在 70000 行 和 785 列 的 和 矩阵 中 : 784 列 形成 
28x28 和 矩 阵 的 每 个 像素 值 ， 一 个 值 代表 一 个 实际 的 数字 。 这 些 数 字 已 经 过 尺寸 标准 化 并 以 固定 尺寸 的 图 像 为 中 心 。 


(3... : 数据 集 MINIST 中 的 数字 图 像 最 初 是 由 Chris Butges 和 Cotinna Cortes 使 用 边框 标准 化 和 居中 化 进行 选择 和 实验 的 。 
Yann LeCun 的 版 本 在 更 大 的 窗口 中 使 用 质心 进行 居中 。 这 些 数 据 可 在 Yann LeCun 的 网 站 http://yann.lecun.com/exdb/mnist/ 上 获 
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每 个 图 像 创建 为 28x 287804. LA Rea ees MNISTAYELSO ~ 8 的 图 像样 本 。 
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MNIST 有 多 个 手写 数字 的 样本 。 这 个 数据 集 可 以 用 于 R 程 序 中 的 训练 ， 我 们 的 代码 可 以 识别 任何 作为 预测 数据 的 新 的 手写 数 
。 这 是 仲 经 网 络 架构 作为 计算 机 视 党 系统 用 作 Al 应 用 的 情况 。 


NI 


下 表 显 示 LeCun 网 站 上 的 数据 集 M NI1ST 的 分 布 情况 。 


数字 计数 
0 5923 
l 6742 
2 5958 
3 6131 
4 5842 
5 5421 
6 5918 
7 6265 
8 5851 
9 5949 


使 用 添加 包 h2o 进 行 深度 学 习 来 对 数据 集 MNIST 训 练 和 测试 ， 将 70000 行 数据 集 分 成 60000 个 训练 行 和 10000 个 测试 行 ， 接 
着 分 析 模 型 的 付 确 性 。 然 后 该 模型 可 用 于 预测 任何 包含 0 ~ 9 数字 的 28x 28 像 素 手 写 数 字 的 输入 数据 集 。 最 后 ， 将 文件 大 小 减少 
到 100 行 ， 以 便 演示 .csv 格 式 的 命名 为 mnist train _ 100.csv 和 mnist test 10.csv 的 两 个 数据 集 的 训练 。 


对 于 我 们 的 示例 R 代 码 ， 可 使 用 100 行 的 训练 数据 集 和 10 行 的 测试 数据 集 。 现 在 介绍 R 代 码 : 


TEE HE HE ERE ERE HE HE HE HH EE ERE ERE FE HE FF FE EE FE FE EE FE FE EEE EE EE HE ERE ERE ER E RE E ERE EE HE 
### Chapter 7 - Neural Networks with R - Use cases 3 3 E EB HHH 
### Handwritten digit recognition through MNIST dataset ######### 
H EE ERE ERE ETE HE HE HE ERE ERE EE RE ERE ERE EE EE E EE EE EE ERE EE ETE ERE EE ERE ERE ERE ERE ERE ERE E RE RE E E HE 


library ("h20") 
h20.init(nthreads--1,max mem size-"3G") 
setwd ("c://R") 


train mnist-read.csv("mnist train 100.csv", header=FALSE) 
attach(train mnist) 
names (train mnist) 


test mnist-read.csv("mnist test 1l0.csv", header=FALSE) 
attach(test mnist) 
names (test mnist) 


m — matrix(unlist(train mnist[10,-1]), 
nrow - 28, 
byrow - TRUE) 


image (m, col=grey.colors (255) ) 


rotate = function(x) t(apply(x, 2, rev) ) 


image (rotate (m) ,col=grey.colors (255) ) 


par (mfrow=c (2,3) ) 
lapply (1:6, 
function(x) image ( 
rotate (matrix (unlist (train_mnist[x,-1]), 
nrow = 28, 
byrow = TRUE)), 
col=grey.colors (255), 
xlab=train_mnist[x,1] 
) 
) 


par (mfrow=c (1,1) ) 


str(train_mnist) 


x=2:785 
y=1 


table (train mnist[,y]) 


model=h2o0.deeplearning (x, 


Y: 
as .h2o(train_mnist), 


model id-"MNIST deeplearning", 
seed-405, 
activation="RectifierWithDropout", 
11=0.00001, 
input_dropout_ratio=0.2, 
classification stop = -1, 
epochs=2000 

) 


summary (model) 
h20.scoreHistory (model) 


preds=h2o.performance (model, 
as.h2o(test mnist)) 


newdata = h20o.predict (model, 
as.h2o(test mnist)) 


predictions = cbind(as.data.frame(seq(1,10)), 
test mnist[,1], 
as.data.frame(newdata[,1])) 
names (predictions) = c("Number", "Actual", "Predicted") 


as .matrix (predictions) 


FH TH TH TH HH HH FE HEE EH EH EH EHH HH HH HH EE PE FE FE FE EH FE E EH FH FH HH HH EE HE HE HE HE EG 
现在 ， 通 过 代码 学 习 如 何 应 用 h2o 解 决 HWR 问 题 。 第 3 章 已 介绍 了 添加 包 h2o， 以 下 代码 用 于 加 载 并 局 动 h2o: 


library ("h20") 
h2o0.init (nthreads=-1,max_mem_size="3G") 


以 下 结果 显示 在 R 提 示 中 : 


> h2o.init (nthreads=-1,max_mem_size="3G") 

H20 is not running yet, starting it now... 

Note: In case of errors look at the following log files: 
C:\Users\lavoro\AppData\Local\Temp\Rtmpiit6zE/h20 lavoro started from r.out 
C:\Users\lavoro\AppData\Local\Temp\Rtmpiit6zE/h20 lavoro started from r.err 
java version "1.7.0 40" 

Java(TM) SE Runtime Environment (build 1.7.0 40-b43) 


Java HotSpot (TM) 64-Bit Server VM (build 24.0-b56, mixed mode) 
Starting H20 JVM and connecting: ..... Connection successful! 
R is connected to the H20 cluster: 

H2O cluster uptime: 15 seconds 229 milliseconds 

H2O cluster version: 3.10.5.3 

H20 cluster version age: 2 months and 18 days 

H20 cluster name: H2O started from R lavoro huu267 

H2O cluster total nodes: 1 

H20 cluster total memory: 2.67 GB 

H20 cluster total cores: 4 

H20 cluster allowed cores: 4 

H20 cluster healthy: TRUE 

H2O Connection ip: localhost 

H20 Connection port: 54321 

H20 Connection proxy: NA 

H2O Internal Security: FALSE 

R Version: R version 3.4.1 (2017-06-30) 
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通过 命令 打开 训练 文件 。 代 码 设置 了 100 行 数据 以 简化 演示 工作 。 完 整 的 数据 集 可 以 从 之 前 建议 的 URL 下 载 。 


setwd("C://R") 


该 命令 设置 工作 目录 ， 可 在 其 中 插入 数据 集 以 供 下 一 次 读 取 : 


train_mnist=read.csv("mnist_train_100.csv", header=FALSE) 
attach (train_mnist) 
names (train_mnist) 


这 段 代 码 首 先 加 载 M NIST 的 训练 数据 集 ， 将 文件 大 小 减少 到 100 行 以 进行 训练 处 理 演 示 ， 然 后 使 用 函数 attach() 将 数据 库 添 
加 到 R 搜 索 路 径 。 这 意味 着 在 评估 一 个 变量 时 ， 数 据 库 是 由 R 搜 索 的 ， 因 此 可 以 通过 简单 地 给 出 对 象 的 名 称 来 访问 数据 库 中 的 对 
象 。 最 后 ， 使 用 消 数 hames() 来 设置 数据 集 的 名 称 。 我 们 将 在 测试 阶段 对 数据 集 做 同样 的 事情 : 


test_mnist=read.csv("mnist_test_10.csv", header=FALSE) 
attach (test_mnist) 
names (test_mnist) 


现在 ， 通 过 取 数 据 集 的 第 10 行 (BAF) BE — Mr ARAB BAI 28 x 28 xB 


m = matrix(unlist (train_mnist[10,-1]), 
+ nrow = 28, 
+ byrow = TRUE) 


通过 绘制 一 个 Image 对 象 来 看 看 得 到 的 结 


image (m, col=grey.colors (255) ) 


下 面 显示 的 是 手写 数字 的 图 像 。 
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现在 来 创建 一 个 手写 数字 的 镜像 : 


> rotate = function(x) t(apply(x, 2, rev)) 


然后 ， 得 看 图 像 以 验证 刚 完 成 的 操作 : 


> image(rotate(m),col-zgrey.colors(255)) 


下 面 显 示 的 是 图 像 的 镜像 。 
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现在 对 数据 集中 的 前 6 行进 行 相同 的 操作 : 


par (mfrow=c (2,3) ) 
lapply (1:6, 
function(x) image ( 
rotate (matrix (unlist (train_mnist[x,-1]), 
nrow = 28, 
byrow = TRUE)), 
col=grey.colors (255), 
xlab=train_mnist[x,1] 


) 


以 下 是 包含 在 数据 集 的 前 6 行 中 的 手写 数字 的 图 像 : 
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将 绘图 选项 重 置 为 默认 值 : 


par (mfrow=c (1,1)) 


下 一 个 命令 让 我 们 对 训练 数据 做 一 些 解释 性 分 析 : 


str(train_mnist) 
x=2:785 
y=1 


该 命令 查找 训练 矩阵 中 每 个 数字 的 计数 : 


table (train_mnist[,y]) 


结果 如 下 所 示 : 


> table(train_mnist[,y]) 
0 1 2 3 4 5 6 7 8 9 
13 14 6 11 11 5 11 10 8 11 


以 上 代码 显示 数据 集中 每 个 数字 的 出 现 次 数 。 现 在 是 构建 和 训练 模型 的 时 候 了 : 


model-h20o.deeplearning (x, 


Y, 
as.h2o(train mnist), 


model id-"MNIST deeplearning", 


seed-405, 


activation="RectifierWithDropout", 


1120.00001, 

input dropout ratio-0.2, 
classification stop - -1, 
epochs-2000 


WE, TERMES modela, nJfsFBeR summary: 


summary (model) 


下 图 显示 了 所 获得 的 结果 。 


> summary (model) 
Model Details: 


H20RegressionModel: deeplearning 
Model Key: MNIST_deeplearning 
Status of Neuron Layers: predicting V1, regression, gaussian distribution, Quadratic loss, 140.801 weights/biases, 1,7 MB 
, 154.000 training samples, mini-batch size 1 
layer units type dropout 1i 12 mean rate rate rms momentum mean. weight 
1 501 Input 20.00 26 
2 200 RectifierDropout 50.00 % 0.000010 0.000000 0.021286 0.021856 0.000000 0.001784 
3 200 RectifierDropout 50.00 % 0.000010 0.000000 0.014527 0.020565 0.000000 -0.011704 
4 1 Linear 0.000010 0.000000 0.000684 0.000148 0.000000 0.000461 
weight rms mean bias bias rms 


e WN HB 


0.054456 0.477551 0.033506 
0.069420 0.953085 0.025633 
0.055432 -0.025779 0.000000 


WN HB 


H20RegressionMetrics: deeplearning 

** Reported on training data. ** 

** Metrics reported on full training frame ** 
MSE: 0.1341056 

RMSE: 0.3662044 

MAE: 0.2928374 

RMSLE: 0.2140151 

Mean Residual Deviance : 0.1341056 


通过 检查 训 


练 模型 的 性 能 ,可 以 了 解 所 用 算法 的 演变 过 程 : 


preds=h2o.performance (model, 
as.h2o(test_mnist) ) 


现在 ， 我 们 有 了 一 个 训 


练 模型 model， 所 以 可 以 用 它 来 做 出 预测 。 在 我 们 的 例子 中 ， 将 用 它 来 识别 手写 数字 : 


newdata = h2o.predict (model, 
as.h2o(test mnist)) 


MECRA SRE model, $efi JSt CSC i APS FAG Ee RS Rk ea : 


predictions = cbind(as.data.frame(seq(1,10)), 
test_mnist[,1], 
as.data. frame (newdata[,1]) ) 


输入 插入 到 起 阵 中 的 变量 的 名 称 : 


names (predictions) = c("Number", "Actual", "Predicted") 


最 后 ， 检 查 输 出 : 


as .matrix (predictions) 


结果 如 下 所 示 : 


> as.matrix (predictions) 
Number Actual Predicted 


ie 1 7 6.90180840 
[2,] 2 3 3.62368445 
Lor 3 1 U.932792991 
[4, ] 4 0 -0.03092147 
[55.] 5 6 5.21024129 
L6; ] 6 L 0,30850593 
L0] 7 6 6.44916207 
Loe 8 JH d.9949062591 
[9,1] 5 33.1590013 
[10, ] 10 9 7.394213025 


从 刚刚 给 出 的 表格 可 以 看 出 ， 对 于 测试 数据 ， 该 模型 正确 地 预测 了 60% (十 分 之 六 ) . WORE MEAT) Biles. 
该 模型 可 以 通过 以 下 万 法 进一步 改进 : 


增加 训练 数据 集 的 数量 。 
` 调整 函数 h20.deeplearning 的 参数 。 
: 为 h2o JVM 分 配 更 多 内 存 。 


+ 扩展 测试 数据 集 。 


7.4 ”使 用 数据 集 iris 建 六 LSTM 


继续 研究 第 6 草 介 绍 的 RNN 的 LSTM 架 构 ， 使 用 mxnet LSTM 闻 数 介 绍 对 数据 集 iris 的 处 理 过程 。 该 阔 数 将 所 有 输入 和 输出 视 
为 数 子 。 它 对 于 处 理 文本 序列 特别 有 用 ， 但 在 这 里 ， 我 们 将 在 数据 集 iris 上 训练 一 个 LSTM 模 型 ， 输 入 值 是 petal.length、 
petal.width、sepal.length 和 sepal.width， 输 出 变量 是 Species (被 转换 为 1 ~ 3 的 数字 值 ) 。 数 据 集 iris 详 见 第 4 章 : 


HH Ht HH HH FE FE FE FE FE HE HE ERE FE FE FE ERE ERE E FE E ERE HH FE FE FE FE HE FE FE FE FE FE EF FE FE E FE FE FE ERE ERE HH HH E E HE 
### Chapter 7 - Neural Networks with R - Use cases 3 3 E EE E 4 
### Prediction using LSTM on IRIS dataset HH HH HH HHH 
3 FE FE HH HH FE FE HHH HE HE ERE FE FE FE FE FE FH E E FE ERE HH FE E FE FE FE HE FE FE FE EH FE FE E FE HE FE FE FH AERE EH HH E E E 


##Required one time 
library ("mxnet") 


data(iris) 


x = iris[1:5!=5,-5] 

y = as.integer (iris$Species) [1:5!=5] 
train.x = data.matrix (x) 

train.y = y 

test.x = data.matrix(iris[1:5==5,-5]) 
test.y = as.integer (iris$Species) [1:5==5] 


model «- mx.mlp(train.x, train.y, hidden_node=10, out_node=3, 
out_activation="softmax", 

num.round=20, array.batch.size=15, learning.rate=0.07, 
momentum-0.9, 

eval.metric-mx.metric.accuracy) 


preds - predict(model, test.x) 
pred.label - max.col(t(preds)) 


test.y 
pred.label 
EE EE ERE ERE HE HE FE EE ERE TEE FE FE E E E TEE RETE SERERE TEE RETE FE FE E TEE RETE E FE IEEE ETE ERE ETE ERE ERE ERE AERE E E ER HE 


该 程序 需要 安装 mxnet。R 中 的 mxnet 可 用 于 CPU、GPU 及 以 下 操作 系统 : Linux, macOSsIIWindows, 


例证 示 :这 里 只 介绍 Windows 系 统 和 CPU 版 本 的 安装 程序 。 有 关 其 他 架构 的 安装 信息 ， 请 参阅 以 下 


URL: https://mxnet.incubator.apache.org/get_started/install.html. 
要 在 具有 CPU 处 理 器 的 计算 机 上 安装 mxnet， 可 使 用 预先 构建 的 二 进 制 包 。 通 过 以 下 代码 可 直接 在 R 控 制 台 上 安装 软件 包 : 
cran «- getOption("repos") 


cran["dmlc"] «- "https://s3-us-west-2.amazonaws.com/apache-mxnet/R/CRAN/" 
options (repos = cran) 
install.packages("mxnet") 


以 下 添加 包 已 安装 : 


package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 
package 


‘bindr’ successfully unpacked and MD5 sums checked 
‘brew successfully unpacked and MD5 sums checked 
‘assertthat’ successfully unpacked and MD5 sums checked 
‘bindrcpp’ successfully unpacked and MD5 sums checked 
‘glue’ successfully unpacked and MD5 sums checked 
‘pkgconfig’ successfully unpacked and MD5 sums checked 
‘BH’ successfully unpacked and MD5 sums checked 

‘plogr’ successfully unpacked and MD5 sums checked 
‘yaml’ successfully unpacked and MD5 sums checked 
‘irlba’ successfully unpacked and MD5 sums checked 

‘hms’ successfully unpacked and MD5 sums checked 

‘XML’ successfully unpacked and MD5 sums checked 

‘Rook’ successfully unpacked and MD5 sums checked 
‘tidyselect’ successfully unpacked and MD5 sums checked 
‘gridExtra’ successfully unpacked and MD5 sums checked 
‘dplyr’ successfully unpacked and MD5 sums checked 
‘downloader’ successfully unpacked and MD5 sums checked 
‘htmltools’ successfully unpacked and MD5 sums checked 
‘htmlwidgets’ successfully unpacked and MD5 sums checked 
‘igraph’ successfully unpacked and MD5 sums checked 
‘influenceR’ successfully unpacked and MD5 sums checked 


‘purrr’ successfully unpacked and MD5 sums checked 
‘readr’ successfully unpacked and MD5 sums checked 
‘rstudioapi’ successfully unpacked and MD5 sums checked 
‘rgexf’ successfully unpacked and MD5 sums checked 
‘tidyr’ successfully unpacked and MD5 sums checked 


‘viridis’ successfully unpacked and MD5 sums checked 
‘DiagrammeR’ successfully unpacked and MD5 sums checked 
‘visNetwork’ successfully unpacked and MD5 sums checked 
‘data.table’ successfully unpacked and MD5 sums checked 
‘mxnet’ successfully unpacked and MD5 sums checked 


可 以 看 到 ， 在 添加 包 mxnet 的 安 妆 过 程 中 ， 还 需要 安 半 其 他 几 个 添加 包 。 现 在 ， 我 们 已 经 拥有 了 所 需要 的 一 切 。 添 加 包 


mxnet B A rss FHBS ERA mx. Istm : 


library("mxnet") 


在 下 面 的 代码 中 ， 加 载 内 部 数据 集 iris， 并 分 别 使 用 自 变 量 和 目标 变量 设置 x 和 y 变 量 。 变 量 Species 被 转换 为 1 ~ 3 的 数字 : 


data (iris) 


N 
| 


= iris[1:5!=5,-5] 
= as.integer (iris$Species) [1:5!=5] 


仅 以 下 面 的 代码 为 例 进行 解释 : 


x= 


我 们 要 求 R 仅 从 数据 集 iris (该 数据 集 由 150 行 和 5 列 组 成 ) 中 选择 第 1 ~ 4 行 ， 而 不 包含 第 ?5 行 。 也 将 对 5 的 倍数 的 行 数 据 进行 
处 理 ， 所 以 最 后 将 省 略 所 选 的 行 数 为 5 的 倍数 的 行 。 我 们 也 将 忽略 第 5 列 。 最 后 ， 将 获得 120 行 和 4 列 。 


iris[1:5!=5, -5] 


现在 设置 输入 和 输出 : 


train.x = data.matrix (x) 
train.y y 


然后 设置 将 用 于 测试 的 数据 框 ， 只 选择 之 前 省 略 的 行 : 


test.x = data.matrix (iris [1:5==5,-5]) 
test.y as .integer(iris$Species) [1:5==5] 


使 用 输入 值 和 输出 值 调用 函数 mx.lstm， 以 便 企 RNN 上 使 用 数据 集 的 训练 LSTM 模 型 : 


model «- mx.mlp(train.x, train.y, hidden node-10, out node-3, 
out_activation="softmax", 

num.round-20, array.batch.size=15, learning. rate=0.07, 
momentum=0.9, 

eval .metric=mx.metric.accuracy) 


现在 ， 可 以 进行 预测 : 


preds = predict (model, test.x) 
pred.label = max.col (t (preds) ) 


最 后 ， 打 印 出 结果 ， 比 较 模型 的 性 有 


test.y 
pred.label 


结果 如 下 : 
> test.y 
I 


> pred.label 
IH] 过 六 


比较 测试 数据 的 真实 值 和 预测 值 ， 可 以 注意 到 最 好 的 结果 是 从 类 别 versicolor 中 获得 的 。 从 得 到 的 结果 中 可 以 清楚 地 看 出 ， 
该 模型 需要 改进 ， 因 为 它 能 够 执行 的 预测 没 达到 之 前 例子 中 的 模型 所 达到 的 水 平 。 


7.5 ”使 用 目 动 编码 器 


我 们 已 经 在 无 监督 学 习 的 深度 学 习 章节 中 看 到 了 目 动 编码 器 。 目 动 编码 器 利用 神经 网 络 来 执行 非 线 性 降 维 ， 它 们 通过 使 用 通 
用 函数 逼近 器 找到 数据 的 潜 人 在 特征 ， 以 更 好 的 方式 呈现 数据 。 目 动 编码 器 过 试 以 不 同 的 方式 组 合 或 压缩 输入 数据 。 


以 下 显示 了 使 用 MLP 的 例子 。 


1.6 使 用 H2O 进 行 主 成 分 分 析 


多 元 统计 分 析 中 的 最 大 挑战 之 一 是 显示 具有 多 个 变量 的 数据 集 。 插 运 的 是 ， 在 有 很 多 变量 的 数据 集中 ， 某 毕 数 据 通 单 密切 相 
。 这 是 因为 它们 实际 上 包含 相同 的 信息 ， 而 这 又 是 因为 它们 度量 管理 系统 行为 的 相同 的 量化 提 标 。 因 此 这 些 变量 是 多 余 的 变 
， 对 想 要 建立 的 模型 没有 增加 任何 好 处 。 然 后 ， 可 以 用 一 个 包含 该 信息 内 容 的 新 变量 蔡 换 原 变 量 来 简化 问题 。 


hus 


H 


主 成 分 分 析 (PCA) 方法 生成 一 组 新 的 互补 相关 的 变量 ， 称 为 主 成 分 (principal component) 。 每 个 主 成 分 都 是 原始 变量 
的 线性 组 合 ， 所 有 主 成 分 都 相互 正 交 ， 所 以 没有 见 余 信息 。 主 成 分 作为 一 个 整体 构成 数据 空间 的 正 交 基 础 。PCA 的 目标 是 通过 最 
少 的 主 成 分 解释 最 大 的 方才 。 这 是 一 种 多 维 硫 缩放 的 形式 。 它 将 变量 线性 转换 到 低 维 空间 ， 保 留 有 天 变量 的 最 大 量 信息 。 因 此 主 
成 分 是 线性 变换 后 的 原始 变量 的 组 合 。 


在 下 面 的 例子 中 ， 使 用 h20 来 实现 PCA。 冰 数 prcomp0 用 于 查找 一 组 输入 特征 的 主 成 分 。 这 是 一 种 无 监督 学 习 。 


library (h20) 
h20 inig() 


ausPath = system.file("extdata", "australia.csv", package="h2o0") 
australia.hex = h2o.uploadFile (path = ausPath) 
summary (australia. hex) 


pca_model=h2o0.prcomp (training frame = australia.hex, 
k = 8, 
transform = "STANDARDIZE" ) 


summary (pca model) 

barplot (as.numeric(pca model(imodel$importance[2,]), 
main-"Pca model", 
xlab="Pca component", 
ylab="Proportion of Variance") 


现在 ， 通 过 代码 来 了 解 如 何 添加 包 h2o 来 应 用 PCA。 
自 先 加 载 添加 包 : 


library (h2o) 


该 命令 将 添加 包 加 载 到 R 环 境 中 。 以 下 冰 数 局 动 最 大 内 存 容量 为 2GB 的 h203| 掌 和 两 个 并 行内 核 : 


h2o .init() 


返回 以 下 信息 : 


* h2zo. init:() 
Connection successful! 


R is connected to the H20 cluster: 
H2O cluster uptime: 5 hours 40 minutes 
H20 cluster version: 3.10.5.3 
H20 cluster version age: 2 months and 18 days 
H20 cluster name: H20 started from R lavoro huu267 
H20 cluster total nodes: 1 
H2O cluster total memory: 2.63 GB 
H2O cluster total cores: 4 
H2O cluster allowed cores: 4 
H2O cluster healthy: TRUE 
H2O Connection ip: localhost 
H20 Connection port: 54321 
H2O Connection proxy: NA 
H2O Internal Security: FALSE 
R Version: R version 3.4.1 (2017-06-30) 


在 R 提 示 中 进行 以 下 操作 : 


cl-h20.init(max mem size = "2G", 


nthreads - 2, 
ip = "localhost", 
port - 54321) 


ER h 20. initi E TEE ER7J2GBRh205 EERTPSA TEGERE CRISE DRE RENS : 


ausPath - 
australia.hex = 


"australia.csv", package="h20") 


ausPath) 


system.file("extdata'", 
h20.uploadFile(path = 


第 一 条 指令 生成 包含 要 加 载 文 件 的 路 径 。 要 加 载 本 地 目录 中 的 文件 到 h2o 实 例 ， 请 使 用 h2o.uploadFile0)， 除 了 R 之 外 , € 
还 可 以 将 本 地 数据 加 载 到 h2o 实 例 。 在 圆 括 号 中 ， 指 定 R 中 的 h2o 引 用 对 象 以 及 该 文件 的 完整 URL 或 标准 化 文件 路 径 。 现 在 来 看 
看 内 部 内 容 : 


summary (australia.hex) 


现在 打印 出 数据 集 的 汇总 结果 : 


> summary (australia.hex) 


premax salmax minairtemp maxairtemp maxsst maxsoi moist 
Min. : 18.00 Min. :3441 Min. :272.6 Min: :285.0 Min. :285697 Min. : 0.000 
lst Qu.: 74.59 lst Qu.:3490 Ist OU. 2277.0 lst Qu.:292.0 lst Qu.:290485 lst Qu.: 0.000 
Median :149.76 Median :3533 Median :278.8 Median :299.9 Median :293635 Median : 4.000 
Mean 7161.46 Mean 73529 Mean 7279.9 Mean SEE ad Mean 7295676 | Mean D S REY 
3rd Qu.:249.98 3rd Qu.:3558 3rd Qu.:282.0 3rd Qu.:302.4 3rd Qu.:301934 3rd Qu.: 8.992 
Max. :450.00 . Max. :3650 Max. :290.0 Max. :310.0 Max. : 303697 Max. :16.000 
Max CZCS runoffnew 

Min. : 0.1600 Min. 0.00 

lst Qu.: 0.6308 Ist QU.: 0.00 

Median : 1.0120 Median: 16.81 

Mean : 1.3694 Mean s ZS2E.22 

3rd Qu.: 1.7014 3rd Qu.: 297.72 

Max. :11.3700 Max. :2400.00 


要 对 给 定数 据 集 执 行 PCA， 可 使 用 函数 prcomp(): 


pca model-h20o.prcomp(training frame = 


现在 打印 出 模型 的 汇 忌 结果 : 


summary (pca model) 


k = 8, 


transform = 


在 下 图 中 ， 可 看 到 PCA 模 型 的 汇总 结果 : 


australia.hex, 


"STANDARDIZE" ) 


> summary(pca_model) 
Model Details: 


H20DimReductionModel: pca 
Model Key:  PCA model R 1505718700685. 6 
Importance of components: 

pci pc2 pc3 pc4 pc5 pc6 pc7 pc8 
Standard deviation 1.750703 1.512142 1.031181 0.828313 0.608379 0.548136 0.418162 0.231495 
Proportion of Variance 0.383120 0.285822 0.132917 0.085763 0.046266 0.037557 0.021857 0.006699 
Cumulative Proportion 0.383120 0.668942 0.801859 0.887622 0.933887 0.971444 0.993301 1.000000 


H20DimReductionMetrics: pca 


No model metrics available for PCA 


Scoring History for GramSVD: 
timestamp duration iteration 
1 2017-09-18 15:02:44 0.005 sec 0 


为 了 更 好 地 理解 结果 ， 可 以 制作 由 每 个 主 成 分 解释 的 方差 百分比 碎 石 图 。 每 个 主 成 分 解释 的 方差 百分比 包含 在 PCA 模 型 的 模 
型 重要 性 变量 中 。 


下 图 显示 了 每 个 主 成 分 解释 的 方差 百分比 的 碎 石 图 。 
PCA 模型 


Pca component 


Proportion of Variance 
0,05 0,10 0,15 0.20 0.25 0.30 0.35 


条 形 图 显示 每 个 主 成 分 的 方差 比例 。 如 你 所 见 ， 前 两 个 主 成 分 解释 了 大 约 70% 的 方差 。 


7.7 ”使 用 H2O 建 立 自动 编码 器 


自动 编码 器 是 用 于 在 没有 高 效 编码 控制 的 情况 下 进行 学 习 的 ANN。 自动 编 码 器 的 目的 是 学 习 一 组 数据 的 编码 ， 通 常用 于 降 
维 。 从 架构 上 讲 ， 最 简单 的 自动 编码 器 是 一 种 高 级 且 非 循环 的 神经 网 络 ， 与 MLP 非 常 相似 ， 具 有 输入 层 、 输 出 层 以 及 一 个 或 多 
个 连接 它们 的 隐 合 层 ， 但 输出 层 具 有 与 输入 层 相同 数量 的 节点 ， 用 于 重建 输入 。 


下 面 给 出 了 一 个 在 数据 集 movie 上 使 用 h2o 的 目 动 编码 器 的 例子 。 
Qaz : 本 例 使 用 的 数据 集 包 含 一 组 电影 及 其 流派 ， 可 以 从 https://grouplens.org/datasets/movielens 中 获取 。 
使 用 movies.csv 文 件 ， 它 有 3 列 |: 

: movield 

: title 


genres 


共有 164979 行 数据 用 于 聚 类 ， 可 使 用 h2o.deeplearning 中 的 参数 autoencoder 来 完成 聚 类 。 该 实例 模型 的 目的 是 根据 流派 
对 电影 进行 聚 类 ， 然 后 可 以 向 用 户 推荐 类 似 的 电影 或 同一 流派 的 电影 。 该 程序 使 用 h20.deeplearning， 并 将 参数 autoencoder 


设置 为 T: 


TEE HH FE FE FE FE FE ERE HE E HE EE ERE HH HE FE FE ERE EE E E FE FE E FE FE E HE E E HE ERE FE E FE FE E HE FE E ETE FE FE EE ERE HE HE EE H HE 
### Chapter 7 - Neural Networks with R - Use cases 3 3 4E E BER 4 
### Autoencoder using H20 on a movie dataset HERE EEE RE 
TEE SERE FE FE FE ERE ERE HE HE HE EE EE ERE FE FE FE ERE EE EE EE FE FE FE ERE E E HE ERE EE a FE EE FE ETE ETE ERE FE FE FE ERE AERE ETE HE 


library ("h20") 


setwd ("c://R") 

#Load the training dataset of movies 
movies-read.csv ( "movies.csv", header-TRUE) 
head (movies) 


model=h2o0.deeplearning (2:3, 
training frame-as.h2o(movies), 
hidden=c (2), 
autoencoder = T, 
activation="Tanh") 


summary (model) 


features=h2o.deepfeatures (model, 
as .h2o(movies), 
layer=1) 


d=as .matrix (features [1:10, ]) 
labels=as.vector (movies[1:10, 2] ) 
plot (d, pch=17) 

text (d, labels, pos=3) 


现在 来 看 看 代码 : 


library ("h20") 
setwd ("c://R") 


这 些 命令 在 R 环 境 中 加 载 添加 包 并 设置 工作 目录 ， 我 们 将 在 其 中 插入 将 要 读 取 的 数据 集 ， 然 后 加 载 数据 : 


movies=read.csv ( 


为 了 可 视 化 数据 集 包 含 的 数据 的 类 型 ， 


head (movies) 


下 图 显示 了 movie 数 据 集 的 前 20 行 数据 : 


> head(movies, n=20) 
movieId 

1 1 Toy Story 
2 2 Jumanji 
3 3 Grumpier Old Men 
4 4 waiting to Exhale 
5 5 Father of the Bride Part II 
6 6 Heat 
7 7 Sabrina 
8 8 Tom and Huck 
9 9 Sudden Death 
10 10 GoldenEye 
11 11 American President, The 
12 12 Dracula: Dead and Loving It 
13 13 Balto 
14 14 Nixon 
15 15 Cutthroat Island 
16 16 Casino 
17 17 Sense and Sensibility 
18 18 Four Rooms 
19 19 Ace Ventura: When Nature Calls 
20 20 Money Train 


现在 建立 和 训练 模型 (model) : 


model=h2o0.deeplearning (2:3, 


"movies.csv", 


分 析 其 中 一 个 变量 


title 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 
(1995) 


header=TRUE) 


的 预览 : 


genres 

Adventure |Animation |Chi dren | Comedy | Fantasy 
Adventure |Chi ldren|Fantasy 
Comedy | Romance 
Comedy | Drama | Romance 

Comedy 

Action |Crime|Thriller 
Comedy | Romance 
Adventure |Chi l dren 

Action 

Action |Adventure|Thriller 
Comedy | Drama | Romance 
Comedy | Horror 
Adventure | Animation |Chi ldren 
Drama 

Action |Adventure|Romance 
Crime |Drama 

Drama | Romance 

Comedy 

Comedy 

Action |Comedy |Crime|Drama|Thriller 


training frame-as.h2o(movies), 


hidden=c (2), 
autoencoder - T, 
activation="Tanh") 


分 析 model 中 包含 的 一 些 信息 : 


summary (model) 


以 下 是 函数 Summary(0 的 结果 汇总 : 


Scoring History: 
timestamp 

1 2017-09-18 15:22:34 

2 2017-09-18 15:24:59 2 min 49.489 sec 


duration training_speed epochs iterations 
56.000 sec 0,00000 obs/sec 0.00000 0 
1042 obs/sec 10.11068 


Variable Importances: (Extract with ^ h20.varimp ) 


Variable Importances: 
variable relative importance scaled importance percentage 


1 genres .Comedy 1.000000 1.000000 0.005904 
2 genres.Drama 0.791133 0.791133 0.004671 
3 genres . Drama | Romance 0.196586 0.196586 0.001161 
4 genres .Comedy | Romance 0.187687 0.187687 0.001108 
5 genres .Comedy|Fantasy|Romance 0.181368 0.181368 0.001071 


variable relative_importance scaled_importance percentage 


10022 title.Speechless (1994) 0.000395 0.000395 0.000002 
10023 title.Monsters, Inc. (2001) 0.000374 0.000374 0.000002 
10024 title.Lover, The (Amant, L') (1992) 0.000188 0.000188 0.000001 
10025 title.Smurfs 2, The (2013) 0.000168 0.000168 0.000001 
10026 title.missing(NA) 0.000000 0.000000 0.000000 
10027 genres .missing(NA) 0.000000 0.000000 0.000000 
在 下 一 个 命令 中 ， 通 过 函数 h2o.deepfeatures() 使 用 H2O 深 度 学 习 模型 从 h2o 数 据 集 提取 非 线性 特征 : 


features-h2o.deepfeatures (model, 
as.h2o(movies), 
layer=1) 


以 下 代码 将 显示 从 模型 中 提取 的 前 6 行 特征 : 


> features 

DE .Li1,01 DE.DL.22 

1 0.2569208 -0.2837829 
2 0.3437048 -0.2670669 
3 0.2969089 -0.4235294 
4 0.3214868 -0.3093819 
5 0.5586608 0.5829145 
6 0.2479671 -0.2757966 
[9125 rows x 2 columns] 


最 后 绘制 一 张 图 ， 希 望 通过 从 分 析 中 获得 的 结果 了 解 模型 是 如 何 对 电影 进行 分 组 的 : 


d-as.matrix(features[1:10,]) 
labels-as.vector(movies[1:10,2]) 
plot (d,pchz17) 

text (d, labels, pos=3) 


下 图 显示 了 聚 类 完成 后 的 电影 分 类 。 由 于 篇 幅 受 限 ， 这 里 只 
是 同一 流派 的 。 基 于 流派 ， 标 题 根 据 它 们 之 间 的 距离 进行 聚 类 。 


0.01413 
0.01339 


samples training_rmse training_mse 
0.000000 
61 92260.000000 


0.00020 
0.00018 


会 制 了 100 部 电影 ， 可 以 看 到 一 些 电 影 凑 在 一 起 ， 这 意味 着 它们 


DE LACZ 


一 0.8 —0.6 —0.4 一 0.2 0.0 0.2 0.4 0.6 
DF.L1.Cl 


鉴于 标题 的 数量 众多 ， 电 影 名 称 无 法 分 辨 ,但 可 以 很 清楚 地 看 出 ， 该 模型 将 电影 分 为 3 个 不 同 的 组 。 


7.8 (Fi tdarchfse Bises 


在 这 一 部 分 ， 我 们 将 使 用 添加 包 darch， 该 添加 包 用 于 深层 神经 网 络 染 构 和 受 限 玻 耳 效 曼 机 (Restricted Boltzmann 
Machines, RBM) 。 添 加 包 darch 构 建 在 G.E.Hinton 和 R.R.Salakhutdinov 编 写 的 代码 上 (可 在 深度 信念 网 络 的 MATLAB 代 码 
下 获得 ) 。 该 添加 包 用 于 生成 多 层 (深层 架构 ) 神经 网 络 ， 并 使 用 作者 介绍 的 方法 对 其 进行 训练 。 


该 万 法 包括 使 用 对 比 散 度 方法 的 预 训练 和 通 弟 已 知 的 训练 算法 (GINS EH) 进行 微调 。 此 外 ， 也 可 以 通过 
maxout 和 dropout 增 强 有 监督 微调 ， 这 是 最 近 开 友 的 两 项 扩 术 ， 用 于 改善 深度 学 习 的 微调 。 


该 实例 本 质 上 是 基于 一 组 输入 的 分 类 。 为 此 ， 可 使 用 第 ?5 章 中 名 为 BreastCancer.csv 的 数据 集中 的 数据 。 此 数据 取 目 UCI 机 
器 学 习 库 。 只 要 Wolberg 医 生 报 告 他 的 临床 病例 ， 数 据 集 融会 定期 更 新 。 这 是 根据 10 个 目 变 量 对 民 性 或 琉 性 肿瘤 进行 分 类 的 乳 
腺 瘤 患 者 的 一 组 数据 。 


Qz: 为 了 获取 数据 ， 利 用 UCI Machine Learning Repository 在 http://archive.ics.uci.edu/ml 中 提供 的 大 量 数据 。 
数据 详情 如 下 : 

. 样本 数量 : 699 (截至 1992 年 7 月 15 日 ) o 

. 特征 数量 : 10 个 特征 ， 另 外 加 上 类 别 特征 。 


- 特征 信息 : 类 别 特 征 已 被 移动 到 最 后 一 列 。 


里 显示 了 对 特征 的 搞 述 : 


[xf 


# Attribute Domain 

1. Sample code number id number 
2. Clump Thickness 1 - 10 

3. Uniformity of Cell Size 1 - 10 

4. Uniformity of Cell Shape 1 一 10 

5. Marginal Adhesion 1 - 10 

6. Single Epithelial Cell Size 1 - 10 

7. Bare Nuclei 1 - 10 

8. Bland Chromatin 1 - 10 

9. Normal Nucleoli l- 10 
10. Mitoses 1 - 10 
11. Class: (2 for benign, 4 for malignant) 


J TERR eNdarch, Ec vy —"XOR[ J, ABACHA. Bax darch'fse FB tH GS RTT AN HERE , 
这 可 以 由 darch 目 己 在 内 部 进行 测试 。 在 这 种 情况 下 ， 我 们 实现 零 误 关 和 100% 的 准确 性 。 


接 下 来 ， 使 用 乳腺 癌 数 据 建立 darch 模 型 ,然后 检查 准确 性 : 


TEE FE FE HH EH FE FE HE HE FE FE HE FE FE HE E ERE ERE HE FE FE HE E FE HE E FE FE FE E E ERE ERE HE E FE REE RE EEE HE EE ERE FF HF HF 
####Chapter 7 - Neural Networks with R ######### 
####Breast Cancer Detection using darch package ######### 


TEE FE FE HE HE HE FE FE ERE FE FE HE HE FE E E FE FE HE HE E FE FE EE E FE FE HE FE E E FE FE ERE FE FE FE EE FE FE HE FE E E FE FE E E FE FE FE HE E FE FE ERE HH FF HF 
library ("mlbench") 
library ("darch") 


data (BreastCancer) 
summary (BreastCancer) 


data_cleaned <- na.omit (BreastCancer) 
summary (data_cleaned) 


model «- darch (Class ~ ., data cleaned,layers = c(10, 10, 1), 
darch.numEpochs = 50, darch.stopClassErr = 0, retainData = T) 


plot (model) 

predictions <- predict (model, newdata = data cleaned, type = "class") 
cat (paste ("Incorrect classifications: ", sum (predictions !- 
data_cleaned[,11]))) 

table (predictions, data_cleaned[,11]) 


library (gmodels) 


CrossTable(x = data cleaned$Class, y = predictions, 
prop.chisq-FALSE) 


ATT TAS, RAAT RRA PT SEX: 


library ("mlbench") 
library ("darch") 


原始 代码 的 前 两 行 用 于 加 载 分 析 所 需 的 添加 包 。 


€... 记 住 ， 想 要 安装 初始 的 有 R 中 不 存在 的 添加 包 ， 必 须 使 用 函数 install.packape。 是 安装 添加 包 的 主要 函数 。 它 将 目标 
添加 包 的 名 字 作 为 向 量 和 参数 ， 从 仓库 中 下 载 添 加 包 并 进行 安装 。 这 个 函数 只 需要 使 用 一 次 ， 不 必 每 次 都 运行 这 行 代码 。 

添加 包 mlbench 包 含 一 系列 人 工 和 现实 世界 的 机 器 学 习 基 准 测 试问 题 ， 其 中 包括 来 自 UCI 人 存储 库 的 多 个 数据 集 

添加 包 darch 是 一 个 用 于 深层 架构 和 RBM 的 添加 包 : 


data (BreastCancer) 


通过 这 个 命令 ， 加 载 名 为 BreastCancer 的 数据 集 ， 如 上 所 述 ， 它 存储 在 添加 包 mlbench 中 。 现 在 来 看 看 它 包 含 的 内 容 : 


summary (BreastCancer) 


"- TTA, A žksummay0) — 4-38 JE] BAK, JE] TF AE BERTI UA v AC 28 DR S AGAS ANCUS JE] ROSA T F—PRBR 
的 类 的 特定 方法 。 


在 这 里 ， 该 函数 已 应 用 于 数据 框 ， 结 果 如 下 图 所 示 : 


> summary(BreastCancer) 


Id Cl.thickness Cell.size Cell.shape Marg.adhesion Epith.c.size 
Length: 699 1 IS 32 :384 1 „ass J :407 2 : 386 
Class :character 5 : 130 10 : 67 2 - 29 2 : 58 3 = Fz 
Mode :character 3 7108 3 : 342 10 : 58 3 : 58 4 : 48 

4 : 80 2 > 45 3 JA C 10 3) 533 1 > 47 
10 : 69 4 : 40 4 : 44 4 : 33 6 : AR 
2 - MEN : 30 5 : 34 8 * A 5 39 
(Other):117 (Other): 81 (Other): 95 (Other): 63 uia 66 
Bare.nuclei Bl.cromatin Normal.nucleoli Mitoses Class 
1 :402 2 :166 1 :443 1 : 379 benign 7458 
10 2:134 3 :165 10 : 61 2 : 33 malignant:241 
2 : 30 1 7152 3 : 44 3 * 33 
5 : 7 : /3 2 : 36 10 n 
3 : 28 4 : 40 8 : 24 4 > ， 
(Other): 61 5 34 6 : JJ! 7 9 
NA's : 16 dle’: 69 (Other): 69 — 17 
函数 summary( 为 每 个 变量 返回 一 组 统计 信息 。 特 别 地 ， 它 有 利于 突出 显示 诊断 为 癌症 肿块 的 那 类 变量 class。 在 这 个 案例 


中 ， 检 测 到 458 例 民 性 病例 和 241 例 恶性 病例 。 另 一 个 突出 显示 的 内 容 是 变量 Bare.nuclei， 这 个 变量 检测 到 16 个 缺失 值 。 


为 了 删除 缺失 值 ， 可 以 使 用 函数 na.omit(: 


data cleaned «- na.omit (BreastCancer) 


现在 构建 并 训练 模型 : 


model «- darch(Class ~ ., data cleaned,layers = c(10, 10, 1), 
darch.numEpochs - 50, darch.stopClassErr - 0, retainData - T) 


为 了 评估 模型 性 能 ， 可 以 绘制 原始 网 络 误差 : 


plot (model) 


下 图 显示 了 误差 与 epoch 之 间 的 关系 : 


Network error 
best iteration = 34, train error = 0.049 


o 
ii 
N 


Dataset 
— Training 


Cross Entropy error 


Epoch 
在 第 34 个 epoch 获 得 最 小 误差。 


现在 终于 训练 好 了 网 络 并 准备 好 使 用 ， 可 以 用 它 来 进行 预测 : 


predictions «- predict(model, newdata = data cleaned, type = "class") 


SA SHEA S RACK ARAL TI, AT SAE EUER SHR FIZ ER 5 3 SE PR RT Ri : 


cat(paste("Incorrect classifications:", sum(predictions !- 
data cleaned[,11]))) 


结果 如 下 所 示 : 
> cat(paste("Incorrect classifications:", sum(predictions != 


data_cleaned[,11]))) 
Incorrect classifications: 2 


结果 非常 好 ! 只 有 两 个 错误 的 分 类 ! 我 想 说 这 个 基于 683 个 观测 值 获得 的 结果 是 令 人 满意 的 。 为 了 更 好 地 理解 误差 ， 现 建立 
一 个 混 消 矩阵 : 


table (predictions, data_cleaned[,11]) 


结果 如 下 所 示 : 


> table (predictions, data_cleaned[,11]) 


predictions benign malignant 
benign 443 1 
malignant 1 238 


为 了 获得 有 关 混 淆 矩阵 的 更 多 信息 ， 可 以 使 用 添加 包 gmodels 中 的 立 数 CrossTable()。 与 往常 一 样 ， 在 加 载 添 加 包 之 前 ， 需 


要 安装 它 : 


library (gmodels) 
CrossTable(x = data_cleaned$Class, y = predictions, 
prop .chisq=FALSE) 


使 用 函数 CrossTable() 获 得 的 混淆 矩阵 如 下 图 所 示 : 


> CrossTable(x = data_cleaned$class, y = predictions, 


+ 


prop. chisq=FALSE) 


cell contents 


| 
N / Row Total | 
N / Col Total | 
N / Table Total | 


Total Observations in Table: 683 
| predictions — 
data_cleaned$class | benign | malignant | Row Total 
------- ------------|-----------|-----------|----------- 
benign | 443 | 1 | 444 
| 0.998 | 0.002 | 0.650 
| 0.998 | 0.004 | 
| 0.649 | 0.001 | 
------------------- | ----------- | ----------- | ----------- 
malignant | 1 | 238 | 239 
| 0.004 | 0.996 | 0.350 
| 0.002 | 0.996 | 
| 0.001 | 0.348 | 
------- ------------|-----------|-----------|----------- 
column Total | 444 | 239 | 683 
| 0.650 | 0.350 | 
| | 


正如 在 分 类 中 预期 的 那样 ， 我 们 的 模型 只 有 两 个 误差 : FP 和 FN。 接 着 来 计算 准确 度 ， 如 第 2 章 所 示 ， 它 由 以 下 公式 给 出 : 


AC 


JC 


TP+TN | 


P+N  TP+TN+FP+FN 


在 R 环 境 中 计算 准确 度 : 


> Accuracy = 
> Accuracy 
[1] 0.997072 7 


(443+238) /683 


TP+ TN 


如 前 所 述 ， 分 类 器 取得 了 很 好 的 结果 。 


719 小结 


最 后 一 章 介 绍 了 一 些 神经 网 络 和 深度 学 习 的 案例 。 这 应 该 成 为 你 未 来 开展 神经 网 络 工 作 的 基础 。 在 大 多 数 情 况 下 ， 这 种 用 法 
很 弟 见 ， 在 训练 和 测试 期 间 ， 模 型 涉及 了 数据 集 的 变化 。 


本 草 中 涉及 以 下 实例 : 
: 将 TensorFlow 和 Keras 与 RR 集成 在 一 起 ， 从 而 建立 大 量 使 用 RR 构建 的 用 例 。 
+ 使 用 H2O 〇 分 类 构建 数字 识别 器 。 
` 通过 MxNet 了解 LSTM 模 型 。 
: 使 用 H2O 〇 进行 PCA。 
- 使 用 H2O 〇 构建 自动 编码 器 。 
- darch 关 于 分 类 问题 的 用 法 。 


R 是 提供 给 全 球 数据 科学 家 的 非常 灵活 和 重要 的 统计 编程 语言 。 使 用 R 来 掌握 神经 网 络 将 有 助 于 R 社 区 进一步 友 展 ， 并 增加 R 
在 深度 学 习 和 新 用 例 中 的 使 用 。 


